shift-jisのhtmlをbeautiful soupで分析したい

#環境
mac, anaconda

#行いたいこと
ローカルにあるhtmlファイルをbeautifulsoupに渡したい。

python
1from bs4 import BeautifulSoup as bs
2
3file1　=　"/Users/**/Desktop/**/**.htm"
4soup = bs(open(file1),'lxml')

#エラーコード
'utf-8' codec can't decode byte 0x82 in position 364: invalid start byte

#試したことなど
他のhtmlファイルは無事，分析できたのですが，その違いは文字コードがutf-8かshift-jisかの違いでした。
そこで，openの引数に"encoding="Shift-JIS"と指定したのですが，同様のエラーが出てしまいました。
また，soupの引数にfrom_encording=で指定してみたのですが，それも同様のエラーが出ました。

#教えていただきたいこと
beautifulsoupで，shift-jisのhtmlを解析する方法を教えていただきたいです。色々と調べてはみたのですが，どのようにやってもエラーが出てしまいます。
もしくは，shift-jisのhtmlをutf-8を変換する方法を教えていただきたいです。こちらも調べてはみたのですが，実装には至りませんでした。

#追加・補充
以下のコードを試したところ，同様のエラーが出てしまいました。

soup = bs(open(file1, 'rb').read().decode('Shift-JIS'), 'lxml')

'shift_jis' codec can't decode byte 0x87 in position 2020: illegal multibyte sequence

melian

2021/11/24 17:54

soup = bs(open(file1, 'rb').read().decode('Shift-JIS'), 'lxml') を実行すると、どうなりますでしょうか？

退会済みユーザー

2021/11/25 02:23

追記依頼，ありがとうございます。追記しましたとおり，同様のエラーが出てしまいました。

melian

2021/11/25 02:34

ありがとうございます。 illegal byte が 0x87 であれば、 soup = bs(open(file1, 'rb').read().decode('shift_jisx0213'), 'lxml') でデコードできるかもしれません。時間があれば試してみて下さい。

退会済みユーザー

2021/11/25 02:43

ありがとうございます！デコードできました！！大変恐縮ですが，さらに１つお伺いしたいことがあります。手元のフォルダに並んでいるhtmlファイルは，utf-8とshiht-jisが混在しているようで，for文で分析を回す際に，それぞれのファイルの文字コードを取得して，それに対応する形でsoupを作成すると言ったようなことは実装できますでしょうか？

melian

2021/11/25 02:47

実装は可能なのですが、少し面倒なので(苦笑)、元の html ファイルの文字コードを utf-8 に一括変換する方が良いのかな、と思います。html ファイルの文字コードは現状のままでないとまずいのでしょうか？

退会済みユーザー

2021/11/25 02:55

そうなのですね。現状のままでなくても全く問題ありません。一応，web上のフリーツールを使って変換してみたところ，うまく読み込むことができました。全てのファイルでバックアップも取ってあるので，ぜひ一括変換の方法も教えていただきたいです。何卒，よろしくお願いいたします。

melian

2021/11/25 03:03

私は Linux を常用していて Windows はほとんど使ったことがないのですが、Linux ではファイルの文字コードを変換するコマンドが幾つかあって、バッチ処理的に一括変換する事ができます。Windows をお使いなのでしたら、一括変換の方法を新規の質問として投稿してみてはどうでしょうか。それと、注意点として html ファイルの内のメタタグで指定している charset も UTF-8 に変更する必要があるかと思います。

退会済みユーザー

2021/11/25 03:10

ありがとうございます。自分は，macなのでmac環境におけるコマンドを調べた上で，わからなかったら新規の質問として投稿しようと思います。改めて，ご丁寧な回答をありがとうございました。ベストアンサーにさせていただきたいので，よろしければご回答を行っておいていただけると幸いです。

行動規範の内容に同意します

回答2件

ベストアンサー

以下のコードを試したところ，同様のエラーが出てしまいました。

soup = bs(open(file1, 'rb').read().decode('Shift-JIS'), 'lxml')

'shift_jis' codec can't decode byte 0x87 in position 2020: illegal multibyte sequence

文字コードの指定を shift_jisx0213 にする事でデコードが可能になります。

python
1soup = bs(open(file1, 'rb').read().decode('shift_jisx0213'), 'lxml')
2
3# 試してはいないのですが、おそらく `open()` で指定しても同じかと思います
4soup = bs(open(file1, encoding='shift_jisx0213'), 'lxml')

投稿2021/11/25 03:19

melian

総合スコア21216

openの引数に"encoding="Shift-JIS"と指定したのですが，

でいいはずです。正しくは"Shift_JIS"ですが。

なお、"lxml"ではShift_JISのままでは、from_encoding="Shift_JIS"と指定してもちゃんと扱えないようです。"html.parser"ならOKのはず。
参考：https://teratail.com/questions/368173

投稿2021/11/24 17:09

otn

総合スコア86319

退会済みユーザー

2021/11/25 02:30

ご回答ありがとうございます。openの引数に指定した場合は，質問中のエラーが出てしまいました。回答者様のご指摘を踏まえて，パーサを変えて "soup = bs(open(file1),from_encoding="Shift_JIS","html.parser")" を実行したところ， "positional argument follows keyword argument" というエラーが出てしまいました。エラーの意味自体は分かるのですが，どうも直し方がわかりません。よろしければ，ご教授願いたいです。

otn

2021/11/25 03:39

> openの引数に指定した場合は，質問中のエラーが出てしまいました。 Shift_JISを正しく指定していれば、「'utf-8' codec can't decode」というエラーは出るはずがないので、何かの勘違いとか、エラーメッセージのコピペミスとかがあると思われます。 > "positional argument follows keyword argument" というエラーが出てしまいました。書いてある通りで、位置パラメーター"mtml.parser"は、キーワードパラメーターfrom_encoding="Shift_JIS" の後ろに書くことは出来ません。第二引数です。また、 > 'shift_jis' codec can't decode byte 0x87 in position 2020: illegal multibyte sequence というエラーが出ていることからすると、ページは純粋なShift_JISでなく、MS拡張の文字が入っているので、from_encoding="cp932" にしましょう。cp932というのがWindowsで使われているShift_JISの拡張版です。

退会済みユーザー

2021/11/25 04:36

ご回答ありがとうございました。今回は，もう1人の方の回答で解決したのでそちらをBAにさせていただきました。改めて，ご回答ありがとうございました。

otn

2021/11/25 04:38

> Shift_JISを正しく指定していれば、「'utf-8' codec can't decode」というエラーは出るはずがないので、何かの勘違いとか、エラーメッセージのコピペミスとかがあると思われます。はどうだったのでしょうか？

退会済みユーザー

2021/11/25 06:15

すみません，その点に対するご返信を失念しておりました。自分の「同様に」という言葉が曖昧だったのですが，「'utf-8' codec can't decode」の部分が'Shift_JIS'に置き換わった「'Shift_JIS' codec can't decode」というエラーが出るということをお伝えしたかったです。正確な記載を書き，お手数をおかけして申し訳ありませんでした。

otn

2021/11/25 08:31

それは全然違うメッセージなので、最初から正しくエラーメッセージが書いてあれば、もっと早く解決したでしょう。

行動規範の内容に同意します

あなたの回答