回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ GitHubに関する質問

Q&A

解決済

3回答

1690閲覧

wordファイルをデコードエラー

総合スコア0

0グッド

0クリップ

投稿2021/09/18 04:23

0

0

GithubAPIを使ってレポジトリにあるwordファイルの文字数などを取り出したいのですがデコード部分でエラーが出ます。文字コード関連のエラーだとは思うのですがそもそもwordファイルのバイナリデータからデコードして文字数や内容を取ってくることは可能なのですか？

python3
1from github import Github
2import base64
3import codecs
4
5token = 'hoge'
6repo_name = 'hogerepo'
7file_name = 'hoge.docx'
8
9g = Github(token)
10repo = g.get_repo(repo_name)
11contents = repo.get_contents(file_name))
12content = base64.b64decode(contents.content)
13with open(file_name, mode="rb") as f:
14        content = f.read()
15        tmp = content.decode()

Error
1Traceback (most recent call last):
2  File "C:\Users\riku\Desktop\portforio\soturonproject\pygit.py", line 20, in <module>
3    print(content.decode())
4UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 16: invalid continuation byte

行動規範の内容に同意します

回答3件

0

自己解決

decodeしたwordファイルはマイクロソフト専用の形式になっているので読み解くのが難しそうです。なのでgithubactionsを用いた実装にしました

投稿2021/09/19 04:19

総合スコア0

0

そもそもwordファイルのバイナリデータからデコードして文字数や内容を取ってくることは可能なのですか？

可能ですが、質問にある方法だけでは無理です。

やったことはありませんが、wordファイルというのが .docx 形式なら、base64.b64decodeしたあとに、python-docxを使って文字数や内容を取ってくることは可能でしょう。

Python で excel・wordの読み書き

wordファイルというのが.doc 形式の場合はwin32comを使って.docx形式に変換するようです

python-docxは「doc形式」ファイルを処理できないので、これを行いました...

投稿2021/09/18 04:36

総合スコア24670

2021/09/18 04:43

decodeした後の出力がバイナリデータになっているのでこの方法でできるかわかりませんが少しやってみようと思います

行動規範の内容に同意します

0

wordのファイルというのは単純なテキストファイルではありません
なので、それではダメです

投稿2021/09/18 04:29

総合スコア88051

2021/09/18 04:45

上の方のように建設的なコメントにしてください

2021/09/18 05:15

残念ながら、それは私の自由です

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ GitHubに関する質問

wordファイルをデコードエラー

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【年末年始休業のお知らせ】年末年始休業につき下記の期間、お問い合わせ等のサポート業務をお休みいたします。 2024/12/27(金)〜2025/01/05(日) 期間中もサポートへのお問い合わせは承りますが、返信は2025/01/06(月)以降となります。また、2025年の初回メルマガ配信は01/07(火)を予定しております。

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る