回答率: 85.36%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.36%

トップ Beautiful Soupに関する質問

Q&A

解決済

2回答

696閲覧

beatifulsoupを利用したjs形式の連想配列を取得するには

総合スコア1

0グッド

0クリップ

投稿2021/07/21 15:03

0

0

こんにちはpython諸学者です。
言葉足らずな場面もあると思いますがご容赦ください。

価格.comをWEBスクレイピングしたのですが、商品名を取得しようとした際に以下のコードを打ち込みました。

python
1import requests
2from bs4 import BeautifulSoup
3import re
4import csv
5
6
7LINK = "https://kakaku.com/item/K0001299352/pricehistory/"
8CSV_NAME = LINK.split('/')[-2] + '.csv'
9res = requests.get(LINK)
10soup = BeautifulSoup(res.content, "html.parser")
11                     
12    
13s = soup('script')

すると以下のような結果が得られました。

<script type="text/javascript">  </script>


ここから、prdname:、prdkey:を取得したいのです。
様々なサイトを参考にしたのですが、jsの連想配列を取得する方法がわからず、途方に暮れております。
どうか皆様のお力をお借しください。

行動規範の内容に同意します

回答2件

0

ベストアンサー

python
1import requests
2from bs4 import BeautifulSoup
3import re
4import csv
5import json
6
7
8LINK = "https://kakaku.com/item/K0001299352/pricehistory/"
9CSV_NAME = LINK.split('/')[-2] + '.csv'
10res = requests.get(LINK)
11soup = BeautifulSoup(res.content, "html.parser")
12
13
14s = soup('script')
15
16
17j = re.sub('(\w+):',r'"\1":',re.search(r'(?<=val:\s)\{.*?}',s[1].get_text(),re.S).group(0))
18j= j.replace('\'',r'"')
19
20d=json.loads(j)
21
22"""
23d['prdname']
24
25PG UNLEASHED 1/60 RX-78-2 ガンダム
26"""

ぱっと見JSONぽかったので、チャレンジしてみました。
正規表現は

1 re.search: valを先頭にした{}内を取得
2 re.sub: JSONのキーを"で括る

となっています。
PythonのJSONデコーダーは``` ``だとダメだったのでreplaceで置換しています。

取得する項目が２つなら、正規表現でそのままとるのが早いかもしれませんね。

投稿2021/07/21 21:13

総合スコア388

2021/07/23 05:04

get_textだとNoneが返ってきたため、該当部分をstringにしたら取得できました。ありがとうございました！

行動規範の内容に同意します

0

beatifulsoupだけではできないと思います。

str(s[1]) と文字列にしたうえで、正規表現で取り出せば、一応は可能です。

あとは、re --- 正規表現操作などを読んで取り出してください。

投稿2021/07/21 16:47

総合スコア24670

2021/07/23 05:06

技術不足で私に開示できる情報が少ない中、とてもためになる情報をありがとうございます。リンク先拝見いたしました。正規表現はいまだにマスターできている感じがしないので、一から学習しなおそうと思います。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Beautiful Soupに関する質問

beatifulsoupを利用したjs形式の連想配列を取得するには

関連した質問

同じタグがついた質問を見る