質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
バイナリ

バイナリは、「0」と「1」だけで表現されている2進数のデータ形式。または、テキスト以外の情報でデータが記述されているファイルを指します。コンピューター内の処理は全て2進数で表記されています。

ASCII

ASCIIは、米国規格協会(ANSI)が制定したコンピューターの情報交換のための文字コードの一つ。アルファベットや数字などを1文字当たり7ビットで表します。英数字を表示する文字コードの中で最も高い互換性を持ち、多くの通信機器に利用されています。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

Q&A

解決済

2回答

1329閲覧

ファイルを開いて、ファイルのエンコード方式がバイナリかASCIIかを調べる

ryohasegawa

総合スコア437

バイナリ

バイナリは、「0」と「1」だけで表現されている2進数のデータ形式。または、テキスト以外の情報でデータが記述されているファイルを指します。コンピューター内の処理は全て2進数で表記されています。

ASCII

ASCIIは、米国規格協会(ANSI)が制定したコンピューターの情報交換のための文字コードの一つ。アルファベットや数字などを1文字当たり7ビットで表します。英数字を表示する文字コードの中で最も高い互換性を持ち、多くの通信機器に利用されています。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

0グッド

0クリップ

投稿2017/07/05 12:12

編集2017/07/06 13:57

ファイルを開いて、エンコード方式がバイナリかASCIIか判別できるコードをこのサイトを参考に書いてみたんですが、うまく動作しません(詳しくは下に書いてあります)。
この辺をこうしたらいいなどのアドバイスをもらえませんか?

CPP

1ifstream ifs(ファイルパス); // ファイルを開く 2 3 // ファイルのオープンに成功しているか 4 if (!ifs) { 5 cout << "ファルがひらけれませんでした。\n"; 6 cout << "何か入力してください。\n"; 7 cin >> err; 8 if (err != "") { 9 return 1; 10 } 11 }else{ 12 cout << "ファイルを開きました。\n"; 13 } 14 15 // 開いたファイルのデータが空だったら 16 if (ifs.get() == EOF) { 17 cout << "ファイルが空です。\n"; 18 cout << "何か入力してください。\n"; 19 cin >> err; 20 if (err != "") { 21 return 1; 22 } 23 } 24 25 while ((ifs.get()) != EOF){ 26 int c = ifs.get(); 27 cout << c << "/C/\n"; 28 29 if (EOF == c){ 30 cout << "ASCII"; // ASCII? 31 break; 32 }else if (c <= 8){ 33 cout << "バイナリ\n"; // バイナリ? 34 break; 35 //ifs.close(); 36 //return 1; 37 } 38 }
ファイル名表示
test_a.txt表示なし
test_b.txtASCII
file.pbmバイナリ

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

気になったのは2点

1、ファイルの中身→拝見しました、失礼しました
2、ループ条件を書いた後、そのループ内でifs.getを呼び出していること。

追記:2がバグの原因です。見た感じ、偶数バイトのファイルでバグりそう(1ループごとに2字読んでいて、EOFはループ条件のとこで発生し、種類表示部にたどりつけない)ですが、省略している部分で、ファイルが空か調べるために1文字読み込んでいるため、奇数バイトのときバグっているのだと思います。

C++

1ifstream ifs(path); 2if(!ifs){ 3 cout << "fail to open"; 4} 5int c; 6while((c = ifs.get()) >= 0x9); 7if( c != EOF ){ 8 cout << "binary" << endl; 9} 10else{ 11 cout << "ASCII" << endl; 12}

サンプル加筆しました。分からないところは随時補足します。

投稿2017/07/05 15:18

編集2017/07/06 14:39
majiponi

総合スコア1720

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ryohasegawa

2017/07/05 15:28

ファイルなんですが、URLで飛べませんか?
majiponi

2017/07/05 15:30

スマホから無事に読めました、思った通り奇数バイトですね(バグが発覚した原因)
ryohasegawa

2017/07/05 15:33 編集

テキスト(全角と半角)と画像ファイルの3パターンで試してみました。 ASCIIかバイナリかを判別させたい、と考えた時にこのパターンしか思いつきませんでした・・・
ryohasegawa

2017/07/06 13:07

空か調べるために1文字読み込んでいるためずれが発生しているという事ですか?
majiponi

2017/07/06 13:32

はい、「バグが起きる条件が」ずれてます。もちろん、バグを直せばいいだけの話ですが。
ryohasegawa

2017/07/06 13:56

ってことは、どのような処理をしているかを記述したほうがいいですね。 省略している所を書き足します。 それと、回答のコードなんですが、コードを書く書き方があるので、それで書いてもらえませか?
majiponi

2017/07/06 14:33

省略補完:ありがとうございます、思った通りでした。 書き方:?? (スタイルのこと? それとも仕様? 自由に書き換えてくれて大丈夫ですよ。)
退会済みユーザー

退会済みユーザー

2017/07/06 14:36

Markdown記法の```でかこってねって事だと思いますよ。単一行のコードに使うやつになっていますので。
majiponi

2017/07/06 14:40

ああああ、最後の閉じ括弧の後の改行が消えてた…修正しましたorz
ryohasegawa

2017/07/07 13:49

lunateaさん説明ありがとうございます。 majiponiさん変更ありがとうございます。
ryohasegawa

2017/07/16 07:26

テスト期間を挟んでしまい返信が遅くなりました。 majiponi さん。 while((c = ifs.get()) >= 0x9);で条件をc = ifs.get()) >= 0x9としていると思うんですが、この条件の説明をいただけますか? ifs.get()で一文字読み込んで、それをcに代入しているのは分かるんですが、c >= 0x9がわかりません。
majiponi

2017/07/16 08:30

ループ条件はマニアックに書いてあります。本来は (c = ifs.get()) != EOF && c >= 0x9 とすべきですが、今回は、9との大小比較だけでokです。EOFはマイナスの値と規定されているので、cが9以上の値であれば、EOFでないことは保証されます。そのためEOFか一部の制御文字が出てくるまで読み飛ばして、最後のif文で、EOFが原因でループを抜けたか制御文字が原因か判断しています。
ryohasegawa

2017/07/18 14:58

yumetodo さんにも返信をしたのですが、0x9で分けるのはなぜですか? if文の判別は理解しています。ファイルの最後まで到達してループを抜けたのかどうかを判別しているんですよね?
majiponi

2017/07/18 15:49

「あなたの引用した」資料に、0x8以下がバイナリである、と定義されていたからです。別にc > 0x8と書いても同じです。私が0x9で書いた理由は、ループ条件を「テキストコードが続く限り」と肯定形の文章で考え、テキストコードの最小値0x9との比較のほうがより自然である、そう考えたからです。
ryohasegawa

2017/07/19 00:50

なるほど、ありがとうございます。
guest

0

拡張子とファイルのフォーマット - yumetodoの旅とプログラミングとかの記録

を見ていただきたいのですが、まず何をテキストファイルと定義するかという問題があります。

テキストファイルとはある文字コード(というと微妙に違うけど)に基づいたbinaryファイルを指します。つまりどの文字コードを想定するかで定義が変わります。0x9で分けるのが妥当かどうか、検討が必要でしょう。

投稿2017/07/07 10:07

yumetodo

総合スコア5850

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ryohasegawa

2017/07/07 13:49

ありがとうございます。 見てきます!
ryohasegawa

2017/07/18 14:55

他サイトも見てきたのですが、なぜ、0x9で分けるのですか?
yumetodo

2017/07/18 16:06

私は0x9で分ける根拠は知らないです・・・、Unicode的には不自然・・・
ryohasegawa

2017/07/19 00:49

わかりました。ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問