質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

受付中

Windows 上の python と MySQL 間の文字コードの挙動

mypt
mypt

総合スコア168

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0回答

0リアクション

2クリップ

943閲覧

投稿2019/11/24 16:10

編集2019/11/27 03:06

前提・実現したいこと

python スクリプトで utf8 のサイトの日本語文字をスクレイピングして mysql にいれたい

発生している問題・エラーメッセージ

requests で取得時にも mysql 挿入時にも文字化けする

該当のソースコード

python

import pymysql import requests from bs4 import BeautifulSoup import settings res = requests.get('https://news.yahoo.co.jp/') print(res.apparent_encoding) # utf-8 res.encoding = res.apparent_encoding # print(res.text) # この時点ですでに文字化け soup = BeautifulSoup(res.content, "lxml") print(soup.original_encoding) # utf-8 text = soup.select_one('title').get_text() print(text) # yahoo ニュースとなってほしいのにすでに文字化けする # MySQL utf8 カラムに保存して取り出す mysql = pymysql.connect( host = settings.db_host, user = settings.db_user, password = settings.db_password, db = settings.db_name, charset = settings.db_charset # utf-8 ) with mysql.cursor() as cursor: sql = ''' INSERT INTO test_table(text) VALUES(%s) ''' cursor.execute(sql, text) mysql.commit() sql = ''' SELECT text FROM test_table LIMIT 1 ''' cursor.execute(sql) text2 = cursor.fetchone()[0] print(text2) # さらに化ける print(text == text2) # 一致してほしい

試したこと

上記テストコードを実行してファイルにリダイレクトすると以下のようになります

utf-8 utf-8 Yahoo!ƒjƒ…[ƒX Yahoo!???? False

取得した文字も文字化けして
mysql に出し入れするとさらに別の文字になってしまいます

文字コードをどこでどう設定すればいいのでしょうか

補足情報(FW/ツールのバージョンなど)

windows 7 上の MSYS ターミナル
python 3.8
MySQL は 5.7.2 (AWS 上の RDS デフォルト設定)

追記

MAC 上で同じコードを動かしたところ問題なく動作しました

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

dameo

2019/11/26 17:53

windowsでpython使ってる人の質問は、環境が疑わしいので個人的には回答はしません。 ただ、質問のセオリーとして、複数の質問を混ぜると回答つきにくいことだけお知らせしておきます。 requests.getの時点で文字化けしてるなら、そこまでで一旦切って回答を待った方がいいという意味です。 解決したら次にDB格納時の問題を再確認し、そこで問題があって自力解決が難しければまた聞けばいいと思います。
mypt

2019/11/27 03:04

>windowsでpython使ってる人の質問は、環境が疑わしい ドキュメントがあまり出てこないのでその通りだと思います いつもはMACで作業してたのですがMACを修理に出すことになったので その間一時的に Windows 環境を使っていました 戻ってきたMACで全く同じコードを動かしたところ何の問題もなく動いたので、 解決する必要は無くなったのですが 今後のために Windows 上の python の文字コードをどう設定すればいいのか知りたいといったところです > 複数の質問を混ぜる ウェブサイトと MySQL 内は UTF-8 であることは確定しているので python 内で変数に入れたときにおかしくなるのかなと予測しています なので全く別の問題とも言い切れないと思ってます
dameo

2019/11/27 04:21

windowsでpythonが怪しいのは、anacondaだけで複数のpythonが使える上にcondaとpipを混ぜて壊れてる人が多く、その上普通のpythonをインストールしてたりWSL使ってる人までいるからです。ただの個人的な感覚で、お答えしていないだけですよ。ちゃんと使えば普通に使えます。 複数の問題の意味が全然伝わってませんね。requestの文字化けだけで1つの質問にしてほしいと言ってるだけです。これ以上の会話もしません。それでは。
FKM

2019/12/03 06:20 編集

そもそも、Mysqlのクエリ呼び出し前の状態で文字化けしていないかを真っ先に確認すべきです。phpmyadminでテーブルを確認するのも解決方法の一つ。エンコード設定や照合機序もおかしい場合があります。あと、my.cnfにutf-8設定しているか確認すべきでしょう。 ちなみにMysql5.7は色々問題が報告されていたので、自分は使いません。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

MySQL

MySQL(マイエスキューエル)は、TCX DataKonsultAB社などが開発するRDBMS(リレーショナルデータベースの管理システム)です。世界で最も人気の高いシステムで、オープンソースで開発されています。MySQLデータベースサーバは、高速性と信頼性があり、Linux、UNIX、Windowsなどの複数のプラットフォームで動作することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。