書籍をOCR付きpdfでスキャンし,AdobeAcrobatReaderDCのテキスト保存でtxt化しました.
日本語の説明部分だけが欲しかったのですが,表や図,コード部分も読み取られており,文字化けしたようになっています.
なので,文字化け箇所を消す,もしくは日本語部分を取り出す,ということをしたいのですが,どのようにしたらよいか思いつきません.
アドバイスよろしくお願いいたします.
よく使う言語はPythonですが,他の言語でもかもいません!
txtファイル
11 ~2整数浮動小数点数、文字列型’ 7 2最悪でもPythonがエラーメッセージを表示するだけです。プロのソフトウェア開発者 3であっても、コードを書いているときは、しょっちゅうエラーメッセージを見ているも 4のです。 51.2整数、浮動小数点数、文字列型 6式とは、値と演算子が組み合わさったもので、必ずひとつの値に評価されるものでし 7た。値のカテゴリーをデータ型といい、すべての値はいずれかひとつのデータ型に属し 8ています。Pythonの主なデータ型を表1-2に示します。例えば、-2\30の値は、整数 9(int)型の値です。整数型は、整数値を表すデータ型です。「イント」と読みます。一方、 103.14のような小数点を含む数値は、浮動小数点数(float)型です。「フロート」と読み 11ますo42という値は整数型ですが、42.0は浮動小数点数型になることに注意してくだ 12さい。 13表1-2主なデータ型 142,3,4, 5 15§“‘鼠α0,域率蕊郷誌 16aaaI 、!Hello! 1 , 111cats! 17整数(int) 18浮動小数点 19文字列(str 207仲筏脾理悪. 21イユ無“患擁り 22り革一十畢戯I 23(M叩)墨『坐串へ.〔) 24勺”姉““か「口 25剖I士f十F司一1 26Ff貼『唖で』q 27句l 28フ』イ士a 29一造I 30I 数織oat) ~ 1 31PythOnのプログラムは、文字列(str)型というテキストの値を持つこともできます 32(ストリング、ステア、スI、ルなどと読みます)。文字列は、Pythonが始まりと終わりを 33認識するように、シングルクォート( ' )やダブルクォート(11)で1並'んで記述します(例 34えば、'HeUo! JP' 'さらば残酷な世界よ! ・と書きます)。1文字も使わない文字列を 35使うこともできますO I 1や”・と書き、空文字列といいます。文字列については、4章 36で詳しく説明します。 37「SyntaxError:EOLwhilescanningstringliteral(文字列リテラルを走査中にEOL 38(文の末尾)に到達した)」というエラーメッセージが表示されたなら、おそらく文字列 39のクォートの閉じ忘れが原因です。例を示します。 40>>> 'HeUowor1d1 41Sv~ntaxE「「o「: EOLwhilescanningstrin91tteral
追記
テキストを取り出したい理由は,合成音声に読ませて,学習の助けになるかなぁ,と思ったからです.
本も見ながら音声を聞くので,精度は粗くても良いです.
個人的に思いついたアプローチは,
「各行について,ひらがなが5文字以下なら削除」です.
さい。
みたいな部分は削除されても構いません.
このアプローチで問題がありそうならコメントください.

回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/02/03 08:39
2019/02/03 08:51
2019/02/03 10:22