質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Q&A

解決済

2回答

1483閲覧

pythonでスクレイピングを行い、テキストファイルに全テキストを書き込みたい

aqws

総合スコア8

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

0グッド

0クリップ

投稿2019/08/22 05:47

前提・実現したいこと

pythonでスクレイピングを行い、適当なサイトからテキストファイルに全テキストを書き込みたいのですが、以下のエラーメッセージで書き込むことができません

発生している問題・エラーメッセージ

UnicodeEncodeError: 'cp932' codec can't encode character '\xab' in position 31709: illegal multibyte sequence

該当のソースコード

from bs4 import BeautifulSoup import urllib.request req = urllib.request.urlopen('適当なURL') soup = BeautifulSoup(req.read()) text = soup.prettify() with open(' e.txt', "w") as file: file.write(text) print('Complete Scraiping.')

試したこと

読み込まない文字は無視させようとしましたが変わりませんでした

補足情報(FW/ツールのバージョンなど)

Atomとコマンドプロンプトを使っています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

open時にencodingにてエンコーディングを指定できます。

Python

1# 略 2text = soup.prettify() 3with open('ret.txt', "w", encoding='utf-8') as file: 4 file.write(text) 5# 略

投稿2019/08/22 06:42

can110

総合スコア38267

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aqws

2019/08/22 06:50

回答ありがとうございます 解決しました
guest

0

無視した上でバイナリで書き込むことで実現できたので一例として回答しておきます。
が、ありがちな問題ですし、もっといい方法がある気がするので、どなたかフォローして頂けると嬉しいです。

python

1from bs4 import BeautifulSoup 2import urllib.request 3 4req = urllib.request.urlopen('https://teratail.com/questions/207565') 5soup = BeautifulSoup(req.read()) 6text = soup.prettify() 7with open('e.txt', 'wb') as file: 8 file.write(text.encode('utf-8', 'ignore')) 9 10print('Complete Scraiping.')

投稿2019/08/22 06:02

編集2019/08/22 06:03
yamap55

総合スコア1376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aqws

2019/08/22 06:50

回答ありがとうございます 解決しました
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問