###前提・実現したいこと
こんばんは。
いつもお世話になっております。
今回はpython3を使って、
読み込んだPDFからテキストを抜粋して、テキストファイルに書き出すという簡単なプログラムの作成を目指しております。
###発生している問題・エラーメッセージ
生成物である'abcdefg.txt'ですが、内容がどうしても文字化けしてしまいます。下記先頭50行の表示内容です。
2ˆ !· /² ˘B 29 2 ˙v 28 ˆ¥#' &É % 5 8€ &É % 5 8€ ˜v2(#Ø #'5 8x5 ˇC5 ˙¦ˆq-¶
###該当のソースコード
python3
1import PyPDF2 2pdf_file_obj = open('11.pdf', 'rb') 3pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj) 4page_obj = pdf_reader.getPage(0) 5content = page_obj.extractText() 6 7new_obj = open('abcdefg.txt', 'w', encoding = 'utf-8') 8new_obj.write(content) 9 10new_obj.close()
###試したこと
色々調べて、openの引数にencodingを追加したのですが、文字化け解消には至りませんでした。
何卒アドバイスを頂ければ幸いでございます。
###補足情報(言語/FW/ツール等のバージョンなど)
python3
PyPDF2
windows8.1
回答2件
あなたの回答
tips
プレビュー