質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Python

    9289questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Python (requests)スクレイピングの取得結果が UnicodeEncodeError でファイルに出力出来ない

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 210

khaii21

score 10

 前提・実現したいこと

requestsモジュールでスクレイピングした結果をファイルに出力したいのですが
UnicodeEncodeErrorとなりファイルに出力出来ません。
取得する内容には日本語が含まれており、エンコードはutf-8です。
色々とunicodeの扱いについて調べたのですが解決出来ませんでした。
どなたか改善方法をご教授頂けないでしょうか。

 発生している問題・エラーメッセージ

UnicodeEncodeError: 'ascii' codec can't encode characters in position 59-66: ordinal not in range(128)

 該当のコマンド

#!/usr/bin/python
# -*- coding: utf-8 -*-

import requests

url = "http://hoge.co.jp"
file = "/tmp/hoge.log"

s = requests.Seasion()
res = s.get(url)

res.encoding = res.apparent_encodeing
# 出力結果は utd-8
print(res.encoding)

with open(file, "w") as f:
    f.write(res.text)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

山勘ですが、

with open(file, "w", encoding="utf-8") as f:


でいけませんか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/18 21:12

    ご回答ありがとうございます。
    試してみたところ、下記のエラーとなりました。

    TypeError" 'encoding' is an invalid keyword argument for this function

    何か他にご教授頂けることがありましたら助かります。

    キャンセル

  • 2018/06/18 21:25

    使っているのはpython2系なんですね。そしたら、
    print type(res.text)
    の結果を教えていただけませんか

    キャンセル

  • 2018/06/18 21:29

    Python 2 になります。最初にきちんと提示しておらず申し訳ございません。
    出力結果は <type 'unicode'> と出力されました。

    キャンセル

  • 2018/06/18 21:30

    でしたら
    f.write(res.text.encode("utf-8"))
    でどうでしょうか。

    キャンセル

  • 2018/06/18 21:34

    ありがとうございます。
    きちんと結果をファイルに出力出来ました。
    本当に助かりました。

    キャンセル

+1

取得結果データのエンコードがutf-8であり、提示エラーがf.write(res.text)時に発生したのであれば
with open(file, "w") as f: → with open(file, "w", encoding='utf-8') as f:で出力できると思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/18 21:12

    ご回答ありがとうございます。
    試してみたところ、下記のエラーとなりました。

    TypeError" 'encoding' is an invalid keyword argument for this function

    何か他にご教授頂けることがありましたら助かります。

    キャンセル

  • 2018/06/18 21:34

    pythonバージョンが2のようですね。openの代わりにio.openを使ってみてください。
    import io
    with io.open(file, "w", encoding='utf-8') as f:

    キャンセル

  • 2018/06/18 21:48

    色々とご確認ありがとうございます。
    Python 2 になります。最初にきちんと提示しておらず申し訳ございません。
    先程、hayataka2049さんからご教授頂いた方法でファイルに出力できました。

    都度お聞きすることとなり大変申し訳ございません。
    今後の勉強のために他にも方法があれば勉強のために確認したいと思い試したところ、
    下記のエラーとなりました。
    エラー内容を検索して調べているのですが
    もし原因がお分かりでしたらご教授頂けますと幸いです。

    File "/usr/lib64/python2.6/io.py", line 1515, in write
    s.__class__.__name__)
    TypeError: can't write str to text stream

    キャンセル

  • 2018/06/18 21:56

    あ、中途半端な回答になってました。すみません。
    Python2.xの文字列には「unicode」型と「str」型の2種類あるのですが
    ioモジュールは「unicode」型の文字列読み書きに適した手法で
    そのままstr型を渡すとそのようなエラーが発生します。
    「str」型の読み書きならhayataka2049さんの回答の手法が適切です。
    詳細は
    https://stackoverflow.com/questions/4512982/python-typeerror-cant-write-str-to-text-stream
    を参照ください。

    キャンセル

  • 2018/06/18 22:02

    ご回答ありがとうございます。
    大変勉強になりました。
    本当にありがとうございました。

    キャンセル

0

日本語がUTF8じゃなかったということなんでは。
スクレイピング結果をチェックしてみては

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/18 21:09

    ご回答ありがとうございます。
    無知で申し訳ございません。
    スクレイピング結果のチェックと言われているのはどのようにすれば良いかご教授頂けないでしょうか。

    キャンセル

  • 2018/06/18 21:18

    イマドキのLinuxであれば res.text をターミナルに出力してみる、ってのが手軽ですかね。
    文字化けしてると、utf8じゃないってことに

    キャンセル

  • 2018/06/18 21:27

    ご回答ありがとうございます。
    ターミナルに取得結果を出力してみたところ、きちんと読める結果が出力されました。
    ただ気になることがありまして、何がきっかけなのか分からないのですが、時々文字化けした結果が出力される事があります。
    ファイルへの出力は必ずエラーになります。

    キャンセル

同じタグがついた質問を見る

  • Python

    9289questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。