strtok等の文字列を分割する関数を用いずに文字を分割するプログラミングについての質問

2019/07/06 20:17

ASCIIまたはASCII互換な文字コードであることが前提であれば、A～Zとa～zがそれぞれ連続しているとしても構わないとは思いますが、IBMのサーバーのようにEBCDIC系を採用している環境ではうまく行かないのではないのでしょうか？

2019/07/06 21:59

？？？どこにいけばEBCDICを体験できますか？ここに質問するような人がEBCDICに遭遇する可能性があるんでしょうか？

2019/07/06 22:07

就職して配属された部署の仕事が昔のIBMのメインフレームの流れをそのまま引き継いだシステムで、文字コードがEBCDICだったというのはあり得ない話ではないと思いますよ。

2019/07/06 22:19

それがどれだけ可能性あることなのか、です。今の質問者の段階でEBCDICを考慮させることにどれだけ意味あるのか＝余計な負荷をかけるだけじゃないのか？99%以上ASCIIで通用するなら、EBCDICなど一旦忘れて構わないんじゃないの？と思うわけです。

2019/07/06 22:33

それは「intは32bitです」というのと同じぐらい暴論だと思います。質問者はC言語それ自体を学びたいのでしょうか？それとも、ある環境では動くけど、ある環境では動かないかもしれない環境依存のC言語を学びたいのでしょうか？ C言語は環境に依存した動作について覚えておかなくてはならないことが多くある言語です。文法は単純なのに、そういった所が他言語よりも難しくしている原因の一つになっていると思っています。初心者だからそれらを学ばなくても良いとするのは同意できません。初心者だからこそ、環境に依存していること、環境に依存していないことを区別して学んでおかないと、後から苦労するのはその人自身です。セキュリティ問題に直結するような知らなかったでは済まされないものも多くあります。難しいから、負担になるから、しない・・・と言うのであれば、初めからC言語なんて学ぶべきではありません。

2019/07/06 22:59

私は学習し始めから＜しばらくは＞ int ＝ 32 bit 固定で全然構わないと思います。最初から何でもかんでも押しつけることは有害だと思います。

2019/07/06 23:01 編集

int のサイズが32bitだけじゃないことは比較的容易に触れることができますが、EBCDICを使う環境はかなりレアです。

2019/07/07 00:36

人によってはintが32bit環境ではないものに触れることの方がレアになる場合があると思います。少なくとも私の手元の環境ではintが32bitではない環境はありません(現役のPCはすべて64bitなのでWindows 16bitアプリ等を動かす方法がない)。結局基準なんてないし、自分が持っていないから大丈夫なんて私は言えません。私は何でもかんでもEBCDICに対応しろと言いたいわけではありません。コードはそのままで、ただ一言「ASCII等のa-zやA-Zが連続する文字コードが前提です。」を付け加えるだけで十分だと思います。一番怖いのは、そうではない環境が存在することを知る機会を失い、どこかで重大なバグを引き起こすかも知れないということです。もしかしたら、質問者さんが将来、とても有用なCライブラリの作成者になって、そのライブラリがa-zが連続する事を前提にしていた作りになっていて、EBCDIC環境で重大なバグを引き起こして文句を言われる、そんな未来が来ないと誰が保証できますか？

tatsu99

2019/07/07 00:54

このコードを書いた本人です。raccyさんが言われるのが、確かに正論なのですが、私は心情的には、rubato6809さんの立場をとります。例えば、 int i; for ( i = 0; i < 100000; i++){ 何かの処理 } のようなコードを提示する時、intが16bitなら誤ったコードになりますが、「intは32bit以上であることが前提です」とその都度書く必要はない。というのが、私の心情です。高い意識の質問に対しては、高い意識で回答すべきですが、低い意識の質問に対しては、それに沿った回答で良いと考えています。只、このたぐいの議論は宗教論争になるので、どちらが正しいときめる必要もないかと思います。 racyyさんが回答される場合は、raccyさんの判断で回答すれば良いですし、rubato6809さんが回答される場合は、rubato6809さんの判断で回答すれば良いかと。

2019/07/07 00:59

C言語の主戦場の一つは組込分野です。組込で使うCコンパイラにはintが32bitでないものがかなりの割合で存在します。当然私自身も経験しています。逆に、ASCIIコードが通用しない環境が今どれだけあるのか知りたい程です。はっきり言えばIBMのメインフレーム以外にあるのか、です。EBCDICは特殊な環境です。そこに携わる頃までに知れば良いことです。EBCDICに拘ったり急ぐ必要性は、全く感じられません。

2019/07/07 01:53

> tetsu99さん tetsu99さんがわかっていながらわざと書かないという信念であれば、私からこれ以上何も言うことはありません。 > rubato6809さん rubato6809さんにとっては主戦場で、当たり前のように思っているかも知れませんが、他の人にとってもそうとはかぎりません。少なくとも私にとっては、組み込み系は、たぶん一生触れることがない、遙か遠い世界の出来事です。私には、自分が知っている環境、自分が持っている環境だけを基準にすることはできません。だから、私は、C言語で仕様上確定していない全てのことについて注意を払うようにしています。ただ、初心者にそのようなものをわざと教えないという信念を取るのであれば、あとは私からこれ以上言うことはありません。 --- ただ、私は、C言語に限らず、回答が環境等に依存する確定していない事柄を暗黙の前提としている場合、これからもコメントで指摘し続けるだけです。

2019/07/07 02:31

初心者にそのようなものをわざと教えない・・・それは曲解です。初心者であろうと、例えば「A..Zが連続することを前提にしてはいけないのは何故か？」と問われれば私だってEBCDICを例に挙げて答えます、そこが疑問のポイントだし、EBCDICしか実例が無いようだから。質問者の疑問、あるいは学習の段階にそぐわないことにわざわざ言及しなくても良いと思います。一定のレベル以上になったら「全てのことについて注意を払うように」すべきでしょうが、初心者にそれを要求したら身動きが取れなくなります。親切が仇になりうるという事。

行動規範の内容に同意します

char str[10][256+1];
としていますが、単語が１０個であることを前提にしています。
もし、どうしても使いたいならchar str[1000][256+1];のように十分大きくとるべきです。
それなら単語１０００個まで対応可能です。
又、for(i=0; i<10;i++)も、単語が１０個であることを前提に作っています。
よって、strを使用しない方法にしました。
以下のようになります。

C
1#include<stdio.h>
2# define _SPACE 0x20
3
4int main(void)
5{
6    int i;
7    char text[]="It is good to see you. Thank you for coming.";
8    char *s, *d;
9
10    s = text;
11    d = s;
12    i = 0;
13    while(1)
14    {
15        if (*s == '\0') break;
16        if (*s == _SPACE || *s == '.' )
17        {
18            *s = '\0';
19            if ( d != s )
20            {
21                i++;
22                printf("[%d] : [%s]\n",i,d);
23            }
24            s++;
25            d = s;
26        }else{
27            s++;
28        }
29    }
30    if ( d != s )
31    {
32        i++;
33        printf("[%d] : [%s]\n",i,d);
34    }
35}
36

以下、実行結果です。
[1] : [It]
[2] : [is]
[3] : [good]
[4] : [to]
[5] : [see]
[6] : [you]
[7] : [Thank]
[8] : [you]
[9] : [for]
[10] : [coming]

投稿2019/07/06 00:01

編集2019/07/06 00:40

tatsu99

総合スコア5438

sscanf は使っていいのでしょうか？

C
1#include <stdio.h>
2
3int main(void)
4{
5	char text[] = "It is good to see you. Thank you for coming.";
6	char str[256];
7	int i = 0;
8	while (1) {
9		int n = 0;
10		sscanf(text + i, "%255[^a-zA-Z]%n", str, &n); 
11		i += n;
12		if (sscanf(text + i, "%255[a-zA-Z]%n", str, &n) != 1) break; 
13		i += n;
14		printf("[%s]\n", str);
15	}
16}

別解

やっぱり、sscanf は文字列を分割する関数になるかもしれないので、
別のやり方にします。

C
1#include <stdio.h>
2#include <ctype.h>
3
4int main(void)
5{
6    char text[] = "It is good to see you. Thank you for coming";
7    unsigned char c;
8    int n = 0, i = 0, j = 0;
9    for (; c = text[i]; i++)
10        if (isalpha(c)) !n && (n = 1, j = i);
11        else if (n) n = !printf("[%.*s]\n", i - j, text + j);
12    if (n) printf("[%.*s]\n", i - j, text + j);
13}

isalpha(c) の c は EOF 以外の負の値であってはならないので
unsigned char c; にしています。
n は、単語を表示しているので後で改行が必要ですというフラグです。

追記

出力する単語は一行に一単語ずつ '['と']' で囲んで出力する

この条件を満たしていなかったのでコードを修正しました。

投稿2019/07/05 21:38

編集2019/07/06 01:25

kazuma-s

総合スコア8224

時間がないのでヒントだけ。
単語を判定するには、ctype.hをincludeしてisalnumで判断しましょう。
ctype.h
「追記」・・・遅くなりましたがｗ

c
1#include <stdio.h>
2#include <ctype.h>
3
4int main(void)
5{
6    const char text[] = "It is good to see you. Thank you for coming.";
7    //
8    const char *cptr = text;
9    //
10    char buf[128][32];  // 数字は適当
11    int  index = 0;
12    while (*cptr) {
13        // 英字以外をスキップ
14        while (!isalpha(*cptr) && *cptr) {
15            cptr++;
16        }
17        // 終端の時は終了
18        if (*cptr == '\0') {
19            break;
20        }
21        // 英字だけをコピー
22        char *dptr = buf[index];
23        while (isalpha(*cptr)) {
24            *dptr++ = *cptr++;
25        }
26        *dptr = '\0';  // 行末
27        index++;
28    }
29    //
30    for (int i = 0; i < index; i++) {
31        printf("str[%d] : [%s]\n", i, buf[i]);
32    }
33    //
34    return 0;
35}

実行結果

text
1usr ~/Project/test % ./a.out
2str[0] : [It]
3str[1] : [is]
4str[2] : [good]
5str[3] : [to]
6str[4] : [see]
7str[5] : [you]
8str[6] : [Thank]
9str[7] : [you]
10str[8] : [for]
11str[9] : [coming]
12usr ~/Project/test %

投稿2019/07/05 21:05

編集2019/07/06 19:45

総合スコア6851

2019/07/05 21:07

英字だけならisalpha()でもOK

2019/07/06 13:56

題意に沿うようにソース修正しました。

kazuma-s

2019/07/06 15:14

そのプログラムでは "coming" を buf に入れた後、 *cptr == '.' で、while (*cptr) { のループを継続しますが、 '.' をスキップした後、'\0' もスキップしてどんどん先に行きます。 cateyeさんの環境ではたまたま英字あり、その直後が '\0' だったのでそれを取り込み index が一つ多くなっているようです。私の環境では、index が 12 や 15 になりました。