scrapy shell response.xpath().extract()でxpathの値が抽出できない

scrapy で Chrome ウェブストアのクロールを試みています。
アプリのタイトル、URL、★などの情報をxpathで取得したいのですが、どうしてもうまくいきません。
お力添え願えますでしょうか。

■やったこと

下図赤枠のアプリタイトルのxpathを取得

xpath
1/html/body/div[3]/div[4]/main/div/div[1]/div/div[1]/div[3]/div[1]/div[1]/a/div/div[2]/div[3]/h3/

User Agentを指定して scrapy shell を起動

scrapy_shell
1scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36' 'https://chrome.google.com/webstore/category/extensions?hl=ja'

scrapy shell でデータの確認（値が返ってこない）

scrapy_shell
1response.xpath('/html/body/div[3]/div[4]/main/div/div[1]/div/div[1]/div[3]/div[1]/div[1]/a/div/div[2]/div[3]/h3/').extract()

■想定する挙動
scrapy shell の結果が「TunnelBear」となる

ちなみに、以下のコマンドを実行した場合は正常に値が帰ってきます。

response.xpath('/html/head/title/text()').extract()

行動規範の内容に同意します

回答1件

ベストアンサー

HTML のソースコードを見てもらうと判るかと思いますが、Chrome ウェブストアのページは JavaScript を使用してレンダリングされています。そのため、HTTP response body に含まれる HTML 形式のテキストデータからアプリのタイトルなどを XPATH で抽出することができません。

ところで、その HTML データには JSON 形式のテキストが埋め込まれています。

html
1<script type="application/json" id="cws-session-data" ...>
2                         :
3[[["extensions","拡張機能","extensions", ... ], 
4  ["recommended_extensions","あなたへのおすすめ", ... ]
5                         :
6</script>

なので、この JSON データからアプリのタイトルなどを抽出してみます。

python
1bash$ scrapy shell 'https://chrome.google.com/webstore/category/extensions?hl=ja'
2
3>>> import json
4>>> from pprint import pprint
5>>>
6>>> json_text = response.xpath('//script[@id="cws-model-data"]/text()').extract()[0]
7>>> json_list = json.loads(json_text)
8>>>
9>>> recommended = json_list[14][5][7][1][1]
10>>> len(recommended)
1110
12>>> lst = [{'タイトル': r[1], 'URL': r[37], '平均評価': r[12]} for r in recommended]
13>>>
14>>> pprint(lst, sort_dicts=False)
15[{'タイトル': 'Google 翻訳',
16  'URL': 'https://chrome.google.com/webstore/detail/google-translate/aapbdbdomjkkjkaonfhkkikfgjllcleb?hl=ja',
17  '平均評価': 4.346946695582696},
18 {'タイトル': 'Volume Master - ボリュームコントローラー',
19  'URL': 'https://chrome.google.com/webstore/detail/volume-master/jghecgabfgfdldnmbfkhmffcabddioke?hl=ja',
20  '平均評価': 4.766824751580849},
21 {'タイトル': 'TinySketch',
22  'URL': 'https://chrome.google.com/webstore/detail/tinysketch/eekbbmglbfldjpgbmajenafphnfjonnc?hl=ja',
23  '平均評価': 3.9964664310954063},
24                           :
25                           :