Googleの検索はスクレイピングできないようになっていますか?
解決済
回答 2
投稿
- 評価
- クリップ 0
- VIEW 4,461
前提・実現したいこと
現在pythonでスクレイピングの勉強をしているのですが、一般的なサイトとgoogleページで同様の処理をやっているのですが、googleだけエラーが発生します。
なにか抜け道のような方法もあると思いますが、このコードでは取得できないような処理がされているのでしょうか?
発生している問題・エラーメッセージ
/url?q=http://career-theory.net/dont-want-to-go-to-work-5628&sa=U&ved=2ahUKEwiV1beCnfriAhWB51QKHXrqDeoQFjAAegQIBRAB&usg=AOvVaw1UOSDgboTy6yCM-RLRY8ZG
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-95-c91cb8ae4bf0> in <module>()
1 for tag in tags:
----> 2 print(tag.a.get("href"))
AttributeError: 'NoneType' object has no attribute 'get'
該当のソースコード
from bs4 import BeautifulSoup
import requests
import pandas as pd
from google.colab import files
columns = ['rank','title','url', 'affiliate_url']
df = pd.DataFrame(columns=columns)
df.head() #配列の最初を取得,tail()は末尾
keyword = '会社 行きたくない'
html_doc = requests.get('https://www.google.co.jp/search?num=10&q=' +keyword).text
soup = BeautifulSoup(html_doc, 'html.parser') # BeautifulSoupの初期化
print(soup.prettify())
tags = soup.find_all("div",{"class":"jfp3ef"})
print (tags)
↑ここまでは取得できる
for tag in tags:
print(tag.a.get("href"))
↑ここでエラー
import pandas as pd # pandasのインポート
from bs4 import BeautifulSoup # BeautifulSoupのインポート
import requests # requestsのインポート
from google.colab import files
url = "https://review-of-my-life.blogspot.com"
# TODO1 requestsで、指定されたURLのHTMLを取得してください。
response = requests.get(url).text
print(response)
soup = BeautifulSoup(response,'html.parser')
print(soup.prettify())
tags = soup.find_all("h3",{"class":"post-title"})
print(tags)
for tag in tags:
print(tag.a.get("href"))
試したこと
対象クラスを代えたり、aタグだけを直接指定したりしましたが、
getメソッドがきかず、リンクが容易に取得できないようになっているのかな?という印象です
補足情報(FW/ツールのバージョンなど)
Colab Notebooksで作成しています。
また、参考にしている記事は、下記の記事で、この記事の時点では検索結果に、h3などのタグがあったようですが、今はない?のか、上記コードでhtmlを開いてもでてこず、ただ、googleページで直接開発ツールを開いた場合は出てくるので、スクレイピング対策なのかな?と思いました。
https://note.mu/daikawai/n/n7cb363531396
参考記事では当時は、下記コードで
html_doc = requests.get('https://www.google.co.jp/search?num=10&q=' +keyword).text
soup = BeautifulSoup(html_doc, 'html.parser') # BeautifulSoupの初期化
print(soup.prettify())
下記のように取得できたようです。今は、h3が出てきませんでした。
<ol>
<div class="g">
<h3 class="r">
<a href="/url?q=http://career-theory.net/dont-want-to-go-to-work-5628&sa=U&ved=0ahUKEwiNk9LHldfdAhUowFkKHe1JDc4QFggUMAA&usg=AOvVaw2bQgJNPO5k35th4cb-eW8A">
<b>
会社
</b>
に
<b>
行きたくない
</b>
5つの原因を対処・解決するための全知識
</a>
</h3>
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
+4
他の方の回答を引用しますが、Googleは無許可のスクレイピングを禁止しています。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
checkベストアンサー
+1
a["href"]を使うのはどうでしょうか。
tagの中にaタグがない場合もある(tag.a=Noneとなりエラーの原因となる)ので、try-except構文を使うとおすすめです。
for tag in tags:
print(type(tag.a))
#hrefの中身を出力
try:
print(tag.a["href"])
#aタグがない場合
except:
print('エラー発生、続行')
print('タグ終了')
print('終了')
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.23%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2019/06/25 07:47