質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

shift-jisのhtmlをbeautiful soupで分析したい

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 128

score 3

環境

mac, anaconda

行いたいこと

ローカルにあるhtmlファイルをbeautifulsoupに渡したい。

from bs4 import BeautifulSoup as bs

file1 = "/Users/**/Desktop/**/**.htm"
soup = bs(open(file1),'lxml')

エラーコード

'utf-8' codec can't decode byte 0x82 in position 364: invalid start byte

試したことなど

他のhtmlファイルは無事,分析できたのですが,その違いは文字コードがutf-8かshift-jisかの違いでした。
そこで,openの引数に"encoding="Shift-JIS"と指定したのですが,同様のエラーが出てしまいました。
また,soupの引数にfrom_encording=で指定してみたのですが,それも同様のエラーが出ました。

教えていただきたいこと

beautifulsoupで,shift-jisのhtmlを解析する方法を教えていただきたいです。色々と調べてはみたのですが,どのようにやってもエラーが出てしまいます。
もしくは,shift-jisのhtmlをutf-8を変換する方法を教えていただきたいです。こちらも調べてはみたのですが,実装には至りませんでした。

追加・補充

以下のコードを試したところ,同様のエラーが出てしまいました。

soup = bs(open(file1, 'rb').read().decode('Shift-JIS'), 'lxml')


'shift_jis' codec can't decode byte 0x87 in position 2020: illegal multibyte sequence

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • Nashida

    2021/11/25 11:55

    そうなのですね。
    現状のままでなくても全く問題ありません。一応,web上のフリーツールを使って変換してみたところ,うまく読み込むことができました。全てのファイルでバックアップも取ってあるので,ぜひ一括変換の方法も教えていただきたいです。
    何卒,よろしくお願いいたします。

    キャンセル

  • melian

    2021/11/25 12:03

    私は Linux を常用していて Windows はほとんど使ったことがないのですが、Linux ではファイルの文字コードを変換するコマンドが幾つかあって、バッチ処理的に一括変換する事ができます。Windows をお使いなのでしたら、一括変換の方法を新規の質問として投稿してみてはどうでしょうか。それと、注意点として html ファイルの内の メタタグで指定している charset も UTF-8 に変更する必要があるかと思います。

    キャンセル

  • Nashida

    2021/11/25 12:10

    ありがとうございます。自分は,macなのでmac環境におけるコマンドを調べた上で,わからなかったら新規の質問として投稿しようと思います。
    改めて,ご丁寧な回答をありがとうございました。ベストアンサーにさせていただきたいので,よろしければご回答を行っておいていただけると幸いです。

    キャンセル

回答 2

checkベストアンサー

+1

以下のコードを試したところ,同様のエラーが出てしまいました。
  soup = bs(open(file1, 'rb').read().decode('Shift-JIS'), 'lxml')
  'shift_jis' codec can't decode byte 0x87 in position 2020: illegal multibyte sequence

文字コードの指定を shift_jisx0213 にする事でデコードが可能になります。

soup = bs(open(file1, 'rb').read().decode('shift_jisx0213'), 'lxml')

# 試してはいないのですが、おそらく `open()` で指定しても同じかと思います
soup = bs(open(file1, encoding='shift_jisx0213'), 'lxml')

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

openの引数に"encoding="Shift-JIS"と指定したのですが,

でいいはずです。正しくは"Shift_JIS"ですが。

なお、"lxml"ではShift_JISのままでは、from_encoding="Shift_JIS"と指定してもちゃんと扱えないようです。"html.parser"ならOKのはず。
参考:https://teratail.com/questions/368173

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2021/11/25 13:38

    > Shift_JISを正しく指定していれば、「'utf-8' codec can't decode」というエラーは出るはずがないので、何かの勘違いとか、エラーメッセージのコピペミスとかがあると思われます。

    はどうだったのでしょうか?

    キャンセル

  • 2021/11/25 15:15

    すみません,その点に対するご返信を失念しておりました。
    自分の「同様に」という言葉が曖昧だったのですが,「'utf-8' codec can't decode」の部分が'Shift_JIS'に置き換わった「'Shift_JIS' codec can't decode」というエラーが出るということをお伝えしたかったです。
    正確な記載を書き,お手数をおかけして申し訳ありませんでした。

    キャンセル

  • 2021/11/25 17:31

    それは全然違うメッセージなので、最初から正しくエラーメッセージが書いてあれば、
    もっと早く解決したでしょう。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る