文字化けした文字を削除したい

書籍をOCR付きpdfでスキャンし，AdobeAcrobatReaderDCのテキスト保存でtxt化しました．
日本語の説明部分だけが欲しかったのですが，表や図，コード部分も読み取られており，文字化けしたようになっています．

なので，文字化け箇所を消す，もしくは日本語部分を取り出す，ということをしたいのですが，どのようにしたらよいか思いつきません．

アドバイスよろしくお願いいたします．

よく使う言語はPythonですが，他の言語でもかもいません！

txtファイル
11 ~2整数浮動小数点数､文字列型’ 7 
2最悪でもPythonがエラーメッセージを表示するだけです。プロのソフトウェア開発者
3であっても、コードを書いているときは、しょっちゅうエラーメッセージを見ているも
4のです。
51.2整数、浮動小数点数、文字列型
6式とは、値と演算子が組み合わさったもので、必ずひとつの値に評価されるものでし
7た。値のカテゴリーをデータ型といい、すべての値はいずれかひとつのデータ型に属し
8ています。Pythonの主なデータ型を表1-2に示します。例えば、-2\30の値は、整数
9(int)型の値です。整数型は､整数値を表すデータ型です。「イント」と読みます。一方、
103.14のような小数点を含む数値は、浮動小数点数(float)型です。「フロート」と読み
11ますo42という値は整数型ですが、42.0は浮動小数点数型になることに注意してくだ
12さい。
13表1-2主なデータ型
142，3，4， 5 
15§“‘鼠α0,域率蕊郷誌
16aaaI 、!Hello! 1 , 111cats! 
17整数(int) 
18浮動小数点
19文字列(str 
20７仲筏脾理悪. 
21イユ無“患擁り
22り革一十畢戯Ｉ 
23（Ｍ叩）墨『坐串へ．〔） 
24勺”姉““か「口
25剖Ｉ士ｆ十Ｆ司一１ 
26Ｆｆ貼『唖で』ｑ 
27句ｌ 
28フ』イ士ａ 
29一造Ｉ 
30I 数織oat) ~ 1 
31PythOnのプログラムは、文字列(str)型というテキストの値を持つこともできます
32(ストリング、ステア、スI､ルなどと読みます)。文字列は、Pythonが始まりと終わりを
33認識するように、シングルクォート（ ' ）やダブルクォート（11）で1並'んで記述します（例
34えば、'HeUo! JP' 'さらば残酷な世界よ！ ・と書きます)。1文字も使わない文字列を
35使うこともできますO I 1や”・と書き、空文字列といいます。文字列については、4章
36で詳しく説明します。
37「SyntaxError:EOLwhilescanningstringliteral(文字列リテラルを走査中にEOL 
38(文の末尾）に到達した)」というエラーメッセージが表示されたなら、おそらく文字列
39のクォートの閉じ忘れが原因です。例を示します。
40>>> 'HeUowor1d1 
41Sv~ntaxE「「o｢: EOLwhilescanningstrin91tteral

追記

テキストを取り出したい理由は，合成音声に読ませて，学習の助けになるかなぁ，と思ったからです．
本も見ながら音声を聞くので，精度は粗くても良いです．

個人的に思いついたアプローチは，
「各行について，ひらがなが５文字以下なら削除」です．

さい。

みたいな部分は削除されても構いません．

このアプローチで問題がありそうならコメントください．

行動規範の内容に同意します

回答3件

「文字化け」は「言語として異常」という事を意図されているので、じゃぁどうすればその異常を機械的に判別できるようになるのかという話に帰結すると思います。以下は一例、私が思いついた一つのアプローチです。

方針

Google Text-to-Speech（gTTSライブラリ）を利用してテキストを音声に変換、その音声の長さと元の文字列の長さを行単位で比較する。

やってみたデータ

列番号	文字列の長さ	音声の長さ	一文字あたりの音声の長さ	最初の16文字
0	21	9.336	0.445	1 ~2整数浮動小数点数､文字列
1	41	11.832	0.289	最悪でもPythonがエラーメッ
2	39	9.864	0.253	であっても、コードを書いていると
3	4	1.344	0.336	のです。
4	17	7.896	0.464	1.2整数、浮動小数点数、文字列
5	38	12.696	0.334	式とは、値と演算子が組み合わさっ
6	39	12.456	0.319	た。値のカテゴリーをデータ型とい
7	42	16.872	0.402	ています。Pythonの主なデー
8	43	15.84	0.368	(int)型の値です。整数型は､
9	44	16.656	0.379	3.14のような小数点を含む数値
10	41	16.392	0.400	ますo42という値は整数型ですが
11	3	0.96	0.320	さい。
12	10	4.8	0.480	表1-2主なデータ型
13	9	3.336	0.371	2，3，4， 5
14	12	6.144	0.512	§“‘鼠α0,域率蕊郷誌
15	27	7.416	0.275	aaaI 、!Hello! 1
16	8	2.808	0.351	整数(int)
17	5	2.76	0.552	浮動小数点
18	8	3.624	0.453	文字列(str
19	8	3.792	0.474	７仲筏脾理悪.
20	7	2.784	0.398	イユ無“患擁り
21	8	3.456	0.432	り革一十畢戯Ｉ
22	13	5.376	0.414	（Ｍ叩）墨『坐串へ．〔）
23	8	3.552	0.444	勺”姉““か「口
24	10	4.992	0.499	剖Ｉ士ｆ十Ｆ司一１
25	9	3.648	0.405	Ｆｆ貼『唖で』ｑ
26	3	1.2	0.400	句ｌ
27	6	2.184	0.364	フ』イ士ａ
28	4	1.68	0.420	一造Ｉ
29	13	5.232	0.402	I 数織oat) ~ 1
30	42	13.176	0.314	PythOnのプログラムは、文字
31	44	13.032	0.296	(ストリング、ステア、スI､ルな
32	46	15.576	0.339	認識するように、シングルクォート
33	46	17.448	0.379	えば、'HeUo! JP' 'さ
34	42	14.184	0.338	使うこともできますO I 1や”
35	10	3.888	0.389	で詳しく説明します。
36	59	13.632	0.231	「SyntaxError:EOL
37	40	11.88	0.297	(文の末尾）に到達した)」という
38	23	7.752	0.337	のクォートの閉じ忘れが原因です。
39	16	11.592	0.725	>>> 'HeUowor1d1
40	43	12.0	0.279	Sv~ntaxE「「o｢: EO

結論

やる前は上手くいくかもなぁと思ってましたが、やってみたら全然有意な結果が得られないアプローチだと判明したと思います。行単位ではなく文単位とかでやれば違う結果が得られるかもしれませんが、それだと言語解析の正攻法アプローチのほうが良さそうだなぁと思ったり。

投稿2019/02/03 06:12

編集2019/02/03 06:13

YouheiSakurai

総合スコア6161

firedfly

2019/02/03 08:39

面白いアプローチ！ただ音声の長さだけだと辛いですね。やっぱり形態素解析して、その行に含まれる（辞書に載ってる）単語を数えるとかですか。

momochi

2019/02/03 08:51

言語解析とは日本語の文章になっているかの判定でしょうか．この本は600ページほどあるのですが，どれ位時間がかかるものですか．パソコンのスペックにもよるとおもいますが，感覚的で構いません．

YouheiSakurai

2019/02/03 10:22

firedflyさん、ですね。形態素解析で後処理 or OCR前に対象領域外の削除、が正攻法でしょうね。 momochiさん、残念ながら私には形態素解析に関する知見がないのでなんとも言えないです。

行動規範の内容に同意します

追記の方法を実装しました．
ベストアンサーは追記の手法を思いつくのに助けになった，firedflyさんを選ばせていただきました．

cleanOCR.py
1
2def countHiragana(sentence):
3    boolArray = [char for char in sentence if "あ" <= char <= "ん"]
4    return len(boolArray)
5
6
7output = []
8with open("input.txt") as f:
9    while True:
10        line = f.readline()
11        # print(line)
12        if not line:
13            break
14        c = countHiragana(line)
15        if c >= 5:
16            output.append(line)
17
18print(output)
19
20with open("output.txt", "w") as f:
21    f.writelines(output)
22

input.txt
11 ~2整数浮動小数点数､文字列型’ 7
2最悪でもPythonがエラーメッセージを表示するだけです。プロのソフトウェア開発者
3であっても、コードを書いているときは、しょっちゅうエラーメッセージを見ているも
4のです。
51.2整数、浮動小数点数、文字列型
6式とは、値と演算子が組み合わさったもので、必ずひとつの値に評価されるものでし
7た。値のカテゴリーをデータ型といい、すべての値はいずれかひとつのデータ型に属し
8ています。Pythonの主なデータ型を表1-2に示します。例えば、-2\30の値は、整数
9(int)型の値です。整数型は､整数値を表すデータ型です。「イント」と読みます。一方、
103.14のような小数点を含む数値は、浮動小数点数(float)型です。「フロート」と読み
11ますo42という値は整数型ですが、42.0は浮動小数点数型になることに注意してくだ
12さい。
13表1-2主なデータ型
142，3，4， 5
15§“‘鼠α0,域率蕊郷誌
16aaaI 、!Hello! 1 , 111cats!
17整数(int)
18浮動小数点
19文字列(str
20７仲筏脾理悪.
21イユ無“患擁り
22り革一十畢戯Ｉ
23（Ｍ叩）墨『坐串へ．〔）
24勺”姉““か「口
25剖Ｉ士ｆ十Ｆ司一１
26Ｆｆ貼『唖で』ｑ
27句ｌ
28フ』イ士ａ
29一造Ｉ
30I 数織oat) ~ 1
31PythOnのプログラムは、文字列(str)型というテキストの値を持つこともできます
32(ストリング、ステア、スI､ルなどと読みます)。文字列は、Pythonが始まりと終わりを
33認識するように、シングルクォート（ ' ）やダブルクォート（11）で1並'んで記述します（例
34えば、'HeUo! JP' 'さらば残酷な世界よ！ ・と書きます)。1文字も使わない文字列を
35使うこともできますO I 1や”・と書き、空文字列といいます。文字列については、4章
36で詳しく説明します。
37「SyntaxError:EOLwhilescanningstringliteral(文字列リテラルを走査中にEOL
38(文の末尾）に到達した)」というエラーメッセージが表示されたなら、おそらく文字列
39のクォートの閉じ忘れが原因です。例を示します。
40>>> 'HeUowor1d1
41Sv~ntaxE「「o｢: EOLwhilescanningstrin91tteral
42

output.txt
1最悪でもPythonがエラーメッセージを表示するだけです。プロのソフトウェア開発者
2であっても、コードを書いているときは、しょっちゅうエラーメッセージを見ているも
3式とは、値と演算子が組み合わさったもので、必ずひとつの値に評価されるものでし
4た。値のカテゴリーをデータ型といい、すべての値はいずれかひとつのデータ型に属し
5ています。Pythonの主なデータ型を表1-2に示します。例えば、-2\30の値は、整数
6(int)型の値です。整数型は､整数値を表すデータ型です。「イント」と読みます。一方、
73.14のような小数点を含む数値は、浮動小数点数(float)型です。「フロート」と読み
8ますo42という値は整数型ですが、42.0は浮動小数点数型になることに注意してくだ
9PythOnのプログラムは、文字列(str)型というテキストの値を持つこともできます
10(ストリング、ステア、スI､ルなどと読みます)。文字列は、Pythonが始まりと終わりを
11認識するように、シングルクォート（ ' ）やダブルクォート（11）で1並'んで記述します（例
12えば、'HeUo! JP' 'さらば残酷な世界よ！ ・と書きます)。1文字も使わない文字列を
13使うこともできますO I 1や”・と書き、空文字列といいます。文字列については、4章
14で詳しく説明します。
15(文の末尾）に到達した)」というエラーメッセージが表示されたなら、おそらく文字列
16のクォートの閉じ忘れが原因です。例を示します。
17