質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

1174閲覧

Windows 上の python と MySQL 間の文字コードの挙動

mypt

総合スコア170

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

2クリップ

投稿2019/11/24 16:10

編集2019/11/27 03:06

前提・実現したいこと

python スクリプトで utf8 のサイトの日本語文字をスクレイピングして mysql にいれたい

発生している問題・エラーメッセージ

requests で取得時にも mysql 挿入時にも文字化けする

該当のソースコード

python

1import pymysql 2import requests 3from bs4 import BeautifulSoup 4import settings 5 6res = requests.get('https://news.yahoo.co.jp/') 7print(res.apparent_encoding) # utf-8 8res.encoding = res.apparent_encoding 9# print(res.text) # この時点ですでに文字化け 10 11soup = BeautifulSoup(res.content, "lxml") 12print(soup.original_encoding) # utf-8 13 14text = soup.select_one('title').get_text() 15print(text) # yahoo ニュースとなってほしいのにすでに文字化けする 16 17# MySQL utf8 カラムに保存して取り出す 18mysql = pymysql.connect( 19 host = settings.db_host, 20 user = settings.db_user, 21 password = settings.db_password, 22 db = settings.db_name, 23 charset = settings.db_charset # utf-8 24) 25 26with mysql.cursor() as cursor: 27 sql = ''' 28 INSERT INTO test_table(text) VALUES(%s) 29 ''' 30 cursor.execute(sql, text) 31 mysql.commit() 32 33 sql = ''' 34 SELECT text FROM test_table LIMIT 1 35 ''' 36 cursor.execute(sql) 37 text2 = cursor.fetchone()[0] 38 print(text2) # さらに化ける 39 print(text == text2) # 一致してほしい

試したこと

上記テストコードを実行してファイルにリダイレクトすると以下のようになります

utf-8 utf-8 Yahoo!ƒjƒ…[ƒX Yahoo!???? False

取得した文字も文字化けして
mysql に出し入れするとさらに別の文字になってしまいます

文字コードをどこでどう設定すればいいのでしょうか

補足情報(FW/ツールのバージョンなど)

windows 7 上の MSYS ターミナル
python 3.8
MySQL は 5.7.2 (AWS 上の RDS デフォルト設定)

追記

MAC 上で同じコードを動かしたところ問題なく動作しました

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

dameo

2019/11/26 17:53

windowsでpython使ってる人の質問は、環境が疑わしいので個人的には回答はしません。 ただ、質問のセオリーとして、複数の質問を混ぜると回答つきにくいことだけお知らせしておきます。 requests.getの時点で文字化けしてるなら、そこまでで一旦切って回答を待った方がいいという意味です。 解決したら次にDB格納時の問題を再確認し、そこで問題があって自力解決が難しければまた聞けばいいと思います。
mypt

2019/11/27 03:04

>windowsでpython使ってる人の質問は、環境が疑わしい ドキュメントがあまり出てこないのでその通りだと思います いつもはMACで作業してたのですがMACを修理に出すことになったので その間一時的に Windows 環境を使っていました 戻ってきたMACで全く同じコードを動かしたところ何の問題もなく動いたので、 解決する必要は無くなったのですが 今後のために Windows 上の python の文字コードをどう設定すればいいのか知りたいといったところです > 複数の質問を混ぜる ウェブサイトと MySQL 内は UTF-8 であることは確定しているので python 内で変数に入れたときにおかしくなるのかなと予測しています なので全く別の問題とも言い切れないと思ってます
dameo

2019/11/27 04:21

windowsでpythonが怪しいのは、anacondaだけで複数のpythonが使える上にcondaとpipを混ぜて壊れてる人が多く、その上普通のpythonをインストールしてたりWSL使ってる人までいるからです。ただの個人的な感覚で、お答えしていないだけですよ。ちゃんと使えば普通に使えます。 複数の問題の意味が全然伝わってませんね。requestの文字化けだけで1つの質問にしてほしいと言ってるだけです。これ以上の会話もしません。それでは。
FKM

2019/12/03 06:20 編集

そもそも、Mysqlのクエリ呼び出し前の状態で文字化けしていないかを真っ先に確認すべきです。phpmyadminでテーブルを確認するのも解決方法の一つ。エンコード設定や照合機序もおかしい場合があります。あと、my.cnfにutf-8設定しているか確認すべきでしょう。 ちなみにMysql5.7は色々問題が報告されていたので、自分は使いません。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問