質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.04%

Windows 上の python と MySQL 間の文字コードの挙動

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 431

score 168

前提・実現したいこと

python スクリプトで utf8 のサイトの日本語文字をスクレイピングして mysql にいれたい

発生している問題・エラーメッセージ

requests で取得時にも mysql 挿入時にも文字化けする

該当のソースコード

import pymysql
import requests
from bs4 import BeautifulSoup
import settings

res = requests.get('https://news.yahoo.co.jp/')
print(res.apparent_encoding) # utf-8
res.encoding = res.apparent_encoding
# print(res.text) # この時点ですでに文字化け

soup = BeautifulSoup(res.content, "lxml")
print(soup.original_encoding)  # utf-8

text = soup.select_one('title').get_text()
print(text) # yahoo ニュースとなってほしいのにすでに文字化けする

# MySQL utf8 カラムに保存して取り出す
mysql = pymysql.connect(
  host        = settings.db_host,
  user        = settings.db_user,
  password    = settings.db_password,
  db          = settings.db_name,
  charset     = settings.db_charset # utf-8
)

with mysql.cursor() as cursor:
  sql = '''
  INSERT INTO test_table(text) VALUES(%s)
  '''
  cursor.execute(sql, text)
  mysql.commit()

  sql = '''
  SELECT text FROM test_table LIMIT 1
  '''
  cursor.execute(sql)
  text2 = cursor.fetchone()[0]
  print(text2) # さらに化ける
  print(text == text2) # 一致してほしい

試したこと

上記テストコードを実行してファイルにリダイレクトすると以下のようになります

utf-8
utf-8
Yahoo!ƒjƒ…[ƒX
Yahoo!????
False


取得した文字も文字化けして
mysql に出し入れするとさらに別の文字になってしまいます

文字コードをどこでどう設定すればいいのでしょうか

補足情報(FW/ツールのバージョンなど)

windows 7 上の MSYS ターミナル
python 3.8
MySQL は 5.7.2 (AWS 上の RDS デフォルト設定)

追記

MAC 上で同じコードを動かしたところ問題なく動作しました

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • dameo

    2019/11/27 02:53

    windowsでpython使ってる人の質問は、環境が疑わしいので個人的には回答はしません。
    ただ、質問のセオリーとして、複数の質問を混ぜると回答つきにくいことだけお知らせしておきます。
    requests.getの時点で文字化けしてるなら、そこまでで一旦切って回答を待った方がいいという意味です。
    解決したら次にDB格納時の問題を再確認し、そこで問題があって自力解決が難しければまた聞けばいいと思います。

    キャンセル

  • mypt

    2019/11/27 12:04

    >windowsでpython使ってる人の質問は、環境が疑わしい
    ドキュメントがあまり出てこないのでその通りだと思います

    いつもはMACで作業してたのですがMACを修理に出すことになったので
    その間一時的に Windows 環境を使っていました
    戻ってきたMACで全く同じコードを動かしたところ何の問題もなく動いたので、
    解決する必要は無くなったのですが
    今後のために Windows 上の python の文字コードをどう設定すればいいのか知りたいといったところです

    > 複数の質問を混ぜる
    ウェブサイトと MySQL 内は UTF-8 であることは確定しているので
    python 内で変数に入れたときにおかしくなるのかなと予測しています
    なので全く別の問題とも言い切れないと思ってます

    キャンセル

  • dameo

    2019/11/27 13:21

    windowsでpythonが怪しいのは、anacondaだけで複数のpythonが使える上にcondaとpipを混ぜて壊れてる人が多く、その上普通のpythonをインストールしてたりWSL使ってる人までいるからです。ただの個人的な感覚で、お答えしていないだけですよ。ちゃんと使えば普通に使えます。

    複数の問題の意味が全然伝わってませんね。requestの文字化けだけで1つの質問にしてほしいと言ってるだけです。これ以上の会話もしません。それでは。

    キャンセル

  • FKM

    2019/12/03 14:58 編集

    そもそも、Mysqlのクエリ呼び出し前の状態で文字化けしていないかを真っ先に確認すべきです。phpmyadminでテーブルを確認するのも解決方法の一つ。エンコード設定や照合機序もおかしい場合があります。あと、my.cnfにutf-8設定しているか確認すべきでしょう。

    ちなみにMysql5.7は色々問題が報告されていたので、自分は使いません。

    キャンセル

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る