Pythonクローリングしてきた日本語が文字化けしちゃう

Question

### 前提・実現したいこと
Pythonクローリング＆スクレイピング
https://gihyo.jp/book/2017/978-4-7741-8367-1
という本で勉強しています。

mac OS 10.14.4
iTerm2で自身のpythonコードを実行したところ、
クローリングしてきた文字がuXXXXと表記されるように
なってしまいました。

どなたか解決策をご存じの方はいらっしゃいませんか？

よろしくお願いします。

### 発生している問題・エラーメッセージ

```
$ python python_crawler_4.py
{'url': u'https://gihyo.jp/dp/ebook/2019/978-4-297-10576-1', 
'content': [u'Part1\u521d\u4e2d\u7d1a\u8005\u306e\u3064\u307e\u305a\u304d\u306b\u52b9\u304f\u3010\u304a\u52a9\u3051\u3011\u30c6\u30af\u30cb\u30c3\u30af', u'Part2\u30d5\u30a3\u30eb\u30bf\u30fc\u3092\u5236\u3059\u8005\u304c\u30de\u30af\u30ed\u3092\u5236\u3059\u3010\u30c7\u30fc\u30bf\u30d9\u30fc\u30b9\u3011\u30c6\u30af\u30cb\u30c3\u30af', 
```

### 該当のソースコード

```python
import re
import requests
import lxml.html

def main():
    session = requests.Session()
    response = requests.get('https://gihyo.jp/dp')
    urls = scrape_list_page(response)
    for url in urls:
        response = session.get(url)
        ebook = scrape_detail_page(response)
        print(ebook)
        break # first, break for only once

def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)

    for a in root.cssselect('#listBook a[itemprop="url"]'):
        url = a.get('href')
        yield url

def scrape_detail_page(response):
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url': response.url,
        'title': root.cssselect('#bookTitle')[0].text_content(),
        'price': root.cssselect('.buy')[0].text.strip(),
        'content': [normalize_spaces(h3.text_content()) for h3 in root.cssselect('#content > h3')],
    }
    return ebook

def normalize_spaces(s):
    return re.sub(r'\s+', '', s).strip()


if __name__ == '__main__':
    main()


```

### 試したこと
たくさん。もうどうすればいいかわかんないので助けてください。


### 補足情報（FW/ツールのバージョンなど）
前章のローカル環境にてMongDBのインストール＆活用する段階で文字化けが発生し始めました。
下記の方と同じことが起こり、requestやlxmlの再インストールなどこねくり回している間に文字化けがいつの間にか起こっていたように思います。
https://teratail.com/questions/98654

Accepted Answer

python2で実行している可能性が高いです。以下のようなコードを実行して確認できます。確認してみてください。

```python
import sys;print(sys.version)
```

python2ではunicode文字列は「ascii文字で表現可能な」形式で表現される場合があります。実際のデータには問題ありません。

以下の例を見てください。

```python2
>>> s = u"ほげ"
>>> s
u'\u307b\u3052'
>>> print s
ほげ
```

辞書やリストの中に含まれている場合はそのような表示になりますが、実際に要素を取り出して表示すればちゃんとした文字列になっているはずです。

ただし、python2は今年いっぱいでサポートが終了します。

[Python 2.7 Countdown](https://pythonclock.org/)

また、その本もpython3を前提に書かれているようです。

> 2系のサポートは2020年で打ち切られる予定になっていることもあり、今から使いはじめるのであれば3系を使うのがオススメです。本書ではPython 3のみを使用し、Python 3.5.1（OS X）とPython 3.4.3（Ubuntu）を対象として解説します。
> https://image.gihyo.co.jp/assets/files/book/2017/978-4-7741-8367-1/9784774183671-01.pdf

なので、そのまま進めるよりはまずpython3の導入を先に行った方が良いでしょう。

Answer

解決方法：仮想環境を再立ち上げし、その環境上でpythonを実行する

自身がド初心者だったのがはっきりしました。気にかけてくださった皆様、ありがとうございます。
主な原因は、venvを使った仮想環境上でpythonを実行していたのをすっかり失念していたためです。
書籍内の第２章で紹介される仮想環境を立ち上げてから一度もiTerm2を落としておらず、
MongoDBでエラーが発生したタイミングでiTerm2を立ち上げなおし、仮想環境の再立ち上げをしていませんでした。

また、Pythonのversionを調べると、2.7.16と3.7.3が同居していたため、
下記リンク先を参考に、Python3がデフォルトで実行するようにしました。
https://qiita.com/sebeckawamura/items/4bc5945245877f250d2e
　→　　　./bash_profileにalias python="python3"
ただ、基本的には必要なライブラリ群を仮想環境上にインストールしていたため、
仮想環境上でpython勉強を続けていきます。(が故にまた何か起こるかもしれないですが...)

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問