質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

1838閲覧

Python3 でWebスクレイピングが上手くできません

takaoioi1

総合スコア2

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/07/03 01:27

編集2020/07/06 23:28

前提・実現したいこと

Google 検索で上位5つの結果を同時に開く"lucky.py"というプログラムで、'Shohei Ohtani'の検索結果上位5つのWebページを開きたいのですが、うまく実行できません。なお、下記教本を参照しました。

【前提】
バージョン等:Windows10
Python 3.8 32bit
絶対パス: (以下はインタラクティヴシェルへの入力とその結果です)

os.path.abspath('.')

C:\Users\●●●●●\AppData\Local\Programs\Python\Python38-32'
(●●●●●は自身のユーザー名、以下同)

【参照】教本のコード
https://github.com/oreilly-japan/automatestuff-ja/blob/master/ch11/lucky.py

【自身の入力コード】

python

1#! python3 2 3import requests, sys, webbrowser, bs4 4print('Googling...') 5res = requests.get('http://google.com/search?q' + ' '.join(sys.argv[1:])) 6res.raise_for_status() 7 8soup = bs4.BeautifulSoup(res.text,"html.parser") 9link_elems = soup.select('.r a') 10 11num_open = min(5, len(link_elems)) 12for i in range(num_open): 13 webbrowser.open('http://google.com' + link_elems[i].get('href'))

【保存場所・ファイル名その1】
"11-5-lucky.py"というファイル名でデスクトップのPython Scriptフォルダに保存

【コマンドプロンプトでの入力とエラーメッセージ】
C:\Users\●●●●●>Desktop\Python Scripts\11-5-lucky.py
'Desktop\Python' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。

("Desktop\Python Scripts\11-5-lucky.py" は自身で入力)

【試したこと】
⓵絶対パスのScriptsフォルダにファイルを保存し再度トライ(ファイル名は単なる'lucky.py'に変更)
(コマンドプロンプトへの入力とエラーメッセージ)
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py 'Shohei Ohtani'
''Shohei' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。

⓶py.exe のバッチファイルの作成
@py.exe C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py %*
というバッチファイルを作り、pythonScripts.bat として下記フォルダに保存
フォルダ名 C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts
(→ ⓵と同じくコマンドプロンプトに入力:エラーメッセージも出ないが、Web頁も開かれない)
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py Shohei Ohtani

C:\Users\●●●●●>

⓷上記⓵⓶について ファイル名を 'lucky.py'から'11-5-lucky.py'に変更
(作業後のコマンドプロンプトのインプットとアウトプット)
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\11-5-lucky.py 'Shohei Ohtani'
Googling...

C:\Users\●●●●●>

(上記⓶同様エラーメッセージも出ないが、Web頁も開かれない)

以上、長々と失礼しますが、よろしくお願いします。
takaoioi1

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

YufanLou

2020/07/03 01:57

Pythonコードの前後にバッククオート三つを置いてください。下記の感じです: ```python #! python3 # lucky.py - Google の検索結果をいくつか開く import requests, sys, webbrowser, bs4 ... num_open = min(5, len(link_elems)) ``` こうすればインデントもそのまま表示できます。
takaoioi1

2020/07/03 07:36

ご教示ありがとうございます。初心者ゆえ読みづらい投稿失礼しました。
Penpen7

2020/07/03 18:06 編集

後からでも質問の修正を行えますので、そのようにご対応ください。 投稿前にプレビューで反映されているかご確認ください。
Penpen7

2020/07/04 00:52

まだうまく行っていません ```python #! python3 は ```python #! python3 にして、 webbrowser.open('http://google.com' + link_elems[i].get('href'))``` ではなく webbrowser.open('http://google.com' + link_elems[i].get('href')) ``` としてください。
Penpen7

2020/07/06 07:33 編集

C:\Users\●●●●●>C:\\Users\\●●●●●\\AppData\\Local\\Programs\\Python\\Python38-32 Scripts\11-5-lucky.py で実行してみてください。
Penpen7

2020/07/06 23:34 編集

Googlingと表示されているということは、pythonスクリプト自体は実行できているということですかね?
guest

回答3

0

問題はまずこの行で:

python

1res = requests.get('http://google.com/search?q' + ' '.join(sys.argv[1:]))

'Shohei Ohtani' を入れたら、生成したURLがこうなっています:

python

1'http://google.com/search?qShohei Ohtani'

クエリパラメータのqが正しく生成してませんね。

params引数を用いてこうすればいいです:

python

1res = requests.get('https://google.com/search', params={'q': ' '.join(sys.argv[1:])})

念のためhttpsを用いるようにしました。

ですが、こうしても結果が出てきませんでした。ブラウザーで検索してrクラスを見えるけど、res.textrクラスを見えませんでした。故にこの行は空配列しか返りませんでした。

python

1link_elems = soup.select('.r a')

Googleが検索結果ページをJavaScriptができるかないかによって内容を変わったと思います。これが scraping です、目標サイトの変化に合わせなければならないのです。

クラス名よりURL自身にパッタンがありますか?と思いつつ、検索結果の先頭は全部/urlと発見しました。それを基づいて:

python

1link_elems = [elem for elem in soup.select('a') if elem.get('href').startswith('/url')]

と、結果が出るようになりました。でも最後のURLは検索結果ではなく、GoogleログインのURLなので、無視するようにします:

python

1link_elems = link_elems[:-1]

まとめて、完成したコードはこちら:

python

1#! python3 2 3import requests, sys, webbrowser, bs4 4print('Googling...') 5res = requests.get('https://google.com/search', params={'q': ' '.join(sys.argv[1:])}) 6res.raise_for_status() 7 8soup = bs4.BeautifulSoup(res.text,"html.parser") 9link_elems = [elem for elem in soup.select('a') if elem.get('href').startswith('/url')] 10link_elems = link_elems[:-1] 11 12num_open = min(5, len(link_elems)) 13for i in range(num_open): 14 webbrowser.open('https://google.com' + link_elems[i].get('href'))

追記:他の回答に述べた通り、Googleが無断Scrapingを禁止しています。個人的なかつ軽い使い方は多分構いませんが、くれぐれも気をつけてください。

投稿2020/07/07 00:51

編集2020/07/07 01:02
YufanLou

総合スコア463

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

takaoioi1

2020/07/09 00:02

ありがとうございました。解決しましたが、みなさまのおっしゃるとおり不適切な使用は控えます。
guest

0

ベストアンサー

python

1#! python3 2 3import requests, sys, webbrowser, bs4 4print('Googling...') 5res = requests.get('http://google.com/search?q=' + ' '.join(sys.argv[1:])) 6res.raise_for_status() 7soup = bs4.BeautifulSoup(res.text,"html.parser") 8link_elems = soup.select('.kCrYT a') 9 10print(link_elems) 11num_open = min(5, len(link_elems)) 12for i in range(num_open): 13 webbrowser.open('http://google.com' + link_elems[i].get('href')) 14

当方の環境ではこのような形なら動作しました。
憶測で恐縮ですが、例えばGoogleChromeなどで見えるclassとsoupの中のクラス名が同じではないことが原因かと思われます。
一度soupの中身から必要なclass名を取り出してからselectすると良いかと思われます。

以上で今回の問題については解決するかと思われます。
あと
res = requests.get('http://google.com/search?q=' + ' '.join(sys.argv[1:]))q=の部分の=は必要なようなのでお気をつけください。

なお、当方は知りませんでしたが、他の回答者さんにもありますが、googleでは禁止されているようなので、併せてお気をつけください。

投稿2020/07/07 00:29

編集2020/07/07 00:34
yusuraume

総合スコア34

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

takaoioi1

2020/07/09 00:05

ありがとうございました。解決しましたが、みなさまのおっしゃるとおり、NG事項を事前に調べたうえで、不適切な使用は控えるよう致します。
guest

0

試したこと2, 3でpythonスクリプトの実行はできていると思われますが、そのあとのselectで該当する要素がないために、link_elemsの中身が空であることが考えられます。
スクレイピング時にはhtmlの構造を観察してどのようにしたら取れるか試行錯誤していきましょう。

そもそも、Googleでの無許可のスクレイピングは禁止されています。
(Google側からアクセスをブロックされる可能性があります)
自動化されたクエリ

Custom Search APIを利用した方が、早いですし、確実です。
Custom Search API
Qiitaの記事

投稿2020/07/06 23:53

編集2020/07/07 00:08
Penpen7

総合スコア698

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Penpen7

2020/07/07 03:48

どうしてもスクレイピングしたいなら、Yahoo検索でしょうかね... 利用規約にもスクレイピングを禁止しているのは見当たらなかったですし、 robots.txtを見ても大丈夫そうでした。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問