回答率: 85.36%

質問するログイン新規登録

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

詳細はこちら

トップスクレイピングに関する質問

Q&A

解決済

1回答

1417閲覧

Python　スクレイピング　狙ったページURLを取得できない

総合スコア22

0グッド

0クリップ

投稿2020/12/19 05:34

0

0

閲覧いただきありがとうございます。

今回、Pythonでスクレイピングの勉強をしていまして、つまづいてしまいました。
ご教授いただきましたら幸いです。

Python
1import openpyxl
2 
3wb=openpyxl.load_workbook(r"C:\Users\hoge\hoge\fuga.xlsm")
4
5ws = wb.worksheets[0]
6values=[]
7for row in ws["k"]:
8    values.append(row.value)
9
10    for val in values:
11        import requests
12        from bs4 import BeautifulSoup
13        
14        url = 'https://www.google.com/search'
15        res = requests.get(url, params={'q':val})
16        soup = BeautifulSoup(res.text,"html.parser")
17
18        import re
19
20        elems = soup.find_all(href=re.compile("www.qoo10.jp/"))#hrefにqoo10.jpが含まれている場合選択選択
21
22        for elem in elems:
23
24
25            print(elem.contents[0].text)#製品名はちゃんと取得できました。
26            print(elem.attrs["href"])#hrefをctri+clickしてみたら対象する製品はありませんというページが出ました。
27

Excelを読み込みキーワード検索しまして、例としてqoo10のURLだった場合取得というコードを書いておりますが、print(elem.attrs["href"])で取得したURLを選択してみましたら該当する商品はありませんというQoo10のページが出ました。

キーワードを直接Googleの検索バーに入れて検索しましたら、製品ページのURLは取得できました。
なぜ、うまく検索できていないのかが全く分かりません。

どなたかお力をお貸しいただけましたら幸いです。
よろしくお願いいたします。

2020/12/19 11:56

以下の通り、Googleはスクレイピングを禁止しているそうです。 https://teratail.com/questions/140383#reply-212317 一部有料ですが、Googleが用意しているAPIを使ったほうがよろしいかと思います。

行動規範の内容に同意します

回答1件

0

ベストアンサー

製品ページのURLが取得できてるなら、
hrefの値との差異を調べるだけで原因が分かりますね。

あなたが取得したURLが明示されていないので正確な回答はできませんが、
hrefの値を直接叩いても無理じゃないですか。

また、質問本文やコメントについて、
回答を要求するのであれば、解釈が一意となる様な記載にして下さい。

後、既に指摘されてますが、googleは避けて下さい。
勉強目的ならAPIの利用まで考えなくとも、規制されてない範囲でやればいいと思います。

投稿2020/12/21 02:24

退会済みユーザー

総合スコア0

2020/12/21 06:38

ありがとうございました。Googleはだめなんですね(;^_^A 勉強になりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

Python　スクレイピング　狙ったページURLを取得できない

関連した質問

同じタグがついた質問を見る