import re from docx import Document from docx.shared import RGBColor from docx.shared import Inches from docx.shared import Pt path ="C://Users//sato//Documents//doboku2019//result//file0.txt" with open(path,"r",encoding = "utf-8") as f: text = f.read() document = Document() document.add_paragraph(text) document.save("word_demo.docx")
前提・実現したいこと
フォルダー内のテキストファイルをワードファイルに一括で変換しようと思いまずは1つのファイルで返還を行いたいのですがエラー内容をネットで知らべても理解できませんでした。これはどういったエラーで解決策を教えていただきたいです。
発生している問題・エラーメッセージ
All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters
該当のソースコード
python
1from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 2from pdfminer.converter import TextConverter 3from pdfminer.layout import LAParams 4from pdfminer.pdfpage import PDFPage 5import glob 6 7input_path = 'C://Users//sato//Documents//doboku2019//pdf//74-06-0001.pdf' 8output_path = 'C://Users//sato//Documents//doboku2019//test//tesuy.txt' 9 10manager = PDFResourceManager() 11with open(output_path, "wb") as output: 12 with open(input_path, 'rb') as input: 13 with TextConverter(manager, output, codec='utf-8', laparams=LAParams()) as conv: 14 interpreter = PDFPageInterpreter(manager, conv) 15 for page in PDFPage.get_pages(input): 16 interpreter.process_page(page) 17
試したこと
input_path = glob.glob('C://Users//sato//Documents//doboku2019//pdf//*.pdf')としリストを作成
output_path = 'C://Users//sato//Documents//doboku2019//test//tesuy.txt' ←の一括処理を行う場合のファイル名の指定の仕方がわかりません
また9行目以降の処理をfor文で行う時の改良の仕方を教えていただきたいです。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。