C++において、文字列から10バイト目の文字を取得したい

Question

C++において、テキストファイルから文字を読み込み、10バイト目の文字を取得するロジックを作っています。

流れとしてはifstreamでファイル開き、getlineで一行ずつ読み込んだ内容を
string型の変数に結合しています。

その結合した文字列の10文字目ではなく10バイト目の文字が知りたいのですが、
どのような手段がありますでしょうか？
ご教授いただければ幸いです。

Answer

C++初心者なので、コーディング方法の拙い点はご容赦ください…

他の回答者さんもご指摘のように、文字コードの種類が決まらないと具体的なアルゴリズムは決められないですよね。
そこで、文字コードがUTF-8であると仮定して、以下のようなコードを書いてみました。

C++
1#--- 入力ファイルの内容 ---
2$ cat test.txt
3testテスト123!
4てすとTEST試験
5$
6
7#--- 入力ファイルの文字コードはUTF-8 ---
8$ nkf -guess test.txt
9UTF-8
10$
11
12#--- サンプルコード ---
13$ cat test.cpp
14#include <string>
15#include <fstream>
16#include <iostream>
17
18using namespace std;
19
20int main() {
21
22  ifstream ifs("test.txt");
23
24  string str, chr;
25  int lines, char_size, s_byte, e_byte;
26  unsigned char lead;
27
28  lines = 0;     // 行番号
29
30  // 一行ずつ読み込んで処理
31  while (ifs && getline(ifs, str)) {
32    printf("%3d : %s\n", ++lines, str.c_str());
33
34    s_byte = 0;    // 文字の最初のバイト位置
35    e_byte = 0;    // 文字の最後のバイト位置
36    for (string::iterator it = str.begin(); it != str.end(); it += char_size) {
37
38      lead = *it;
39
40      // 文字のバイト数を判定
41      if (lead < 0x80) {
42        char_size = 1;
43      } else if (lead < 0xE0) {
44        char_size = 2;
45      } else if (lead < 0xF0) {
46        char_size = 3;
47      } else {
48        char_size = 4;
49      }
50
51      s_byte = e_byte + 1;
52      e_byte = s_byte + char_size - 1;
53      chr   = str.substr(distance(str.begin(), it), char_size);
54      printf("    %2d - %2d : %s\n", s_byte, e_byte, chr.c_str());
55
56      // 文字の最後のバイト位置が10バイト目以上になったら次の行へ
57      if (e_byte >= 10)
58        break;
59
60    }
61
62  }
63
64}
65$
66
67#--- 実行結果 ---
68$ ./a.out
69  1 : testテスト123!
70     1 -  1 : t
71     2 -  2 : e
72     3 -  3 : s
73     4 -  4 : t
74     5 -  7 : テ
75     8 - 10 : ス
76  2 : てすとTEST試験
77     1 -  3 : て
78     4 -  6 : す
79     7 -  9 : と
80    10 - 10 : T
81$

色々な文字コードに対応させるには、各種文字コードに対応した「10バイト目の文字を検出する」関数を事前に用意しておき、入力ファイルの文字コードを（何らかの方法で）判定した上で、対応する関数を呼び出せば良いのではないでしょうか。

Answer

前提としてはこういうことですよね。
```C++
/*-------- ファイルの中身
あいう
えお
か
きくけこ
----------*/

string str;
// ファイルからgetloneで1行ずつ読み込んで連結
// 結果、strに "あいうえおかきくけこ" が入る
```

> 10文字目ではなく10バイト目の文字が知りたいのですが、 
> どのような手段がありますでしょうか？ 

```C++
char ch = str[9];	// stringの文字位置は0から始まるので10文字目は[9]
```
stringクラスは[]演算子をオーバーロードしているので、このように単純に取得したい文字の位置を配列の添え字として指定すれば良いです。
マルチバイト文字云々に関しては、それを判った上でのご質問と解釈します。

Answer

こんにちは。

> その結合した文字列の10文字目ではなく10バイト目の文字が知りたいのですが、 

他バイト文字の場合、10バイト目が他バイト文字の最初のバイトかもしれないし、最後のバイトかもしれません。ですので、文字コードを決めないとアルゴリズムを決定できないように思います。
もし、UTF-8なら、[ここ](https://ja.wikipedia.org/wiki/UTF-8)をみればアルゴリズムを作れると思います。

10バイト以上読み込み、10バイト目が含まれる文字を表示するのであれば、使われている文字エンコードの1文字の最大バイト数+9バイト以上をifstreamのread()で読んで10バイト目付近を解析すればできるだろうと思います。

Answer

対象のテキストファイルから1文字読み取る事は出来ますか？
出来るなら、それを10回繰り返せば良いのではないですか？
バイト単位で考えているのに、なぜ行単位で読み込むのですか？
同じく、string型にするのも理解できません。
ひょっとして、「改行文字はカウントしない」という仕様なのでしょうか？

Answer

マニピュレータの使い方がよく分かってないのでprintf()にしました＾＾； ```cpp ~/test/cpptst >./a.out a1=ffffffe3, a2=39 ~/test/cpptst >cat tst03.cpp #include #include #include using namespace std; int main() { string line1 = "これはテスト用の文字列です"; string line2 = "01234567890123456789"; char ans1 = line1.c_str()[9]; char ans2 = line2.c_str()[9]; printf("a1=%02x, a2=%02x ", ans1, ans2); return 0; } ~/test/cpptst > ```