回答編集履歴

問題に直接関係しないと思われる記述を削除

2018/11/02 23:50

投稿

スコア395

answer CHANGED Viewed

@@ -1,9 +1,5 @@
 Pythonの処理を始める以前の、wiki_wakati.txtの時点で、既にファイルが壊れている(≒正しいBOM無しUTF-8でない)と想像します。
-> ソースコード内のwiki-wakati.txtの文字コードをEmacsで確認したところ、文字コードはBOM無しUTF-8になっているのですが、
-テキストファイル中の文字コードは自明ではありません。そのためテキストエディタはファイルの一部を読み取り、既知の文字コードをいろいろ当てはめて試し読みして、たまたまハマったものを採用する……というようなことをやっています。
 では、こういうときどうするかというと、ダウンロードした時点からコマンドで加工するステップの1つ1つについて、エディタか他のツールでファイルを開き、どの時点でファイルが壊れたか探るということを繰り返します。(Emacsが早いでしょう。同じエラーメッセージがでるかどうかで判断できるので）
 この手の問題に多少慣れてくると、「エラーメッセージが出てから首を捻るより、コマンドで加工する度にいちいち確認した方が着実で早い」くらいに思えてくるはずです。