Python3 でWebスクレイピングが上手くできません

前提・実現したいこと

Google 検索で上位５つの結果を同時に開く"lucky.py"というプログラムで、'Shohei Ohtani'の検索結果上位５つのWebページを開きたいのですが、うまく実行できません。なお、下記教本を参照しました。

【前提】
バージョン等：Windows10
Python 3.8 32bit
絶対パス: （以下はインタラクティヴシェルへの入力とその結果です）

os.path.abspath('.')

C:\Users\●●●●●\AppData\Local\Programs\Python\Python38-32'
（●●●●●は自身のユーザー名、以下同）

【参照】教本のコード
https://github.com/oreilly-japan/automatestuff-ja/blob/master/ch11/lucky.py

【自身の入力コード】

python
1#! python3 
2
3import requests, sys, webbrowser, bs4
4print('Googling...')  
5res = requests.get('http://google.com/search?q' + ' '.join(sys.argv[1:]))
6res.raise_for_status()
7
8soup = bs4.BeautifulSoup(res.text,"html.parser")
9link_elems = soup.select('.r a')
10
11num_open = min(5, len(link_elems))
12for i in range(num_open):
13    webbrowser.open('http://google.com' + link_elems[i].get('href'))

【保存場所・ファイル名その１】
"11-5-lucky.py"というファイル名でデスクトップのPython Scriptフォルダに保存

【コマンドプロンプトでの入力とエラーメッセージ】
C:\Users\●●●●●>Desktop\Python Scripts\11-5-lucky.py
'Desktop\Python' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチファイルとして認識されていません。

（"Desktop\Python Scripts\11-5-lucky.py" は自身で入力）

【試したこと】
⓵絶対パスのScriptsフォルダにファイルを保存し再度トライ（ファイル名は単なる'lucky.py'に変更）
(コマンドプロンプトへの入力とエラーメッセージ）
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py 'Shohei Ohtani'
''Shohei' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチファイルとして認識されていません。

⓶py.exe のバッチファイルの作成
@py.exe C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py %*
というバッチファイルを作り、pythonScripts.bat として下記フォルダに保存
フォルダ名 C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts
（→ ⓵と同じくコマンドプロンプトに入力：エラーメッセージも出ないが、Web頁も開かれない）
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\lucky.py Shohei Ohtani

C:\Users\●●●●●>

⓷上記⓵⓶についてファイル名を 'lucky.py'から'11-5-lucky.py'に変更
（作業後のコマンドプロンプトのインプットとアウトプット）
C:\Users\●●●●●>AppData\Local\Programs\Python\Python38-32\Scripts\11-5-lucky.py 'Shohei Ohtani'
Googling...

C:\Users\●●●●●>

（上記⓶同様エラーメッセージも出ないが、Web頁も開かれない）

以上、長々と失礼しますが、よろしくお願いします。
takaoioi1

YufanLou

2020/07/03 01:57

Pythonコードの前後にバッククオート三つを置いてください。下記の感じです： ```python #! python3 # lucky.py - Google の検索結果をいくつか開く import requests, sys, webbrowser, bs4 ... num_open = min(5, len(link_elems)) ``` こうすればインデントもそのまま表示できます。

takaoioi1

2020/07/03 07:36

ご教示ありがとうございます。初心者ゆえ読みづらい投稿失礼しました。

Penpen7

2020/07/03 18:06 編集

後からでも質問の修正を行えますので、そのようにご対応ください。投稿前にプレビューで反映されているかご確認ください。

Penpen7

2020/07/04 00:52

まだうまく行っていません ```python #! python3 は ```python #! python3 にして、 webbrowser.open('http://google.com' + link_elems[i].get('href'))``` ではなく webbrowser.open('http://google.com' + link_elems[i].get('href')) ``` としてください。

Penpen7

2020/07/06 07:33 編集

C:\Users\●●●●●>C:\\Users\\●●●●●\\AppData\\Local\\Programs\\Python\\Python38-32 Scripts\11-5-lucky.py で実行してみてください。

Penpen7

2020/07/06 23:34 編集

Googlingと表示されているということは、pythonスクリプト自体は実行できているということですかね？

行動規範の内容に同意します

回答3件

問題はまずこの行で：

python
1res = requests.get('http://google.com/search?q' + ' '.join(sys.argv[1:]))

'Shohei Ohtani' を入れたら、生成したURLがこうなっています：

python
1'http://google.com/search?qShohei Ohtani'

クエリパラメータのqが正しく生成してませんね。

params引数を用いてこうすればいいです：

python
1res = requests.get('https://google.com/search', params={'q': ' '.join(sys.argv[1:])})

念のためhttpsを用いるようにしました。

ですが、こうしても結果が出てきませんでした。ブラウザーで検索してrクラスを見えるけど、res.textにrクラスを見えませんでした。故にこの行は空配列しか返りませんでした。

python
1link_elems = soup.select('.r a')

Googleが検索結果ページをJavaScriptができるかないかによって内容を変わったと思います。これが scraping です、目標サイトの変化に合わせなければならないのです。

クラス名よりURL自身にパッタンがありますか？と思いつつ、検索結果の先頭は全部/urlと発見しました。それを基づいて：

python
1link_elems = [elem for elem in soup.select('a') if elem.get('href').startswith('/url')]

と、結果が出るようになりました。でも最後のURLは検索結果ではなく、GoogleログインのURLなので、無視するようにします：

python
1link_elems = link_elems[:-1]

まとめて、完成したコードはこちら：

python
1#! python3 
2
3import requests, sys, webbrowser, bs4
4print('Googling...')  
5res = requests.get('https://google.com/search', params={'q': ' '.join(sys.argv[1:])})
6res.raise_for_status()
7
8soup = bs4.BeautifulSoup(res.text,"html.parser")
9link_elems = [elem for elem in soup.select('a') if elem.get('href').startswith('/url')]
10link_elems = link_elems[:-1]
11
12num_open = min(5, len(link_elems))
13for i in range(num_open):
14    webbrowser.open('https://google.com' + link_elems[i].get('href'))

追記：他の回答に述べた通り、Googleが無断Scrapingを禁止しています。個人的なかつ軽い使い方は多分構いませんが、くれぐれも気をつけてください。

投稿2020/07/07 00:51

編集2020/07/07 01:02

YufanLou

総合スコア464

takaoioi1

2020/07/09 00:02

ありがとうございました。解決しましたが、みなさまのおっしゃるとおり不適切な使用は控えます。

行動規範の内容に同意します

ベストアンサー

python
1#! python3
2
3import requests, sys, webbrowser, bs4
4print('Googling...')  
5res = requests.get('http://google.com/search?q=' + ' '.join(sys.argv[1:]))
6res.raise_for_status()
7soup = bs4.BeautifulSoup(res.text,"html.parser")
8link_elems = soup.select('.kCrYT a')
9
10print(link_elems)
11num_open = min(5, len(link_elems))
12for i in range(num_open):
13    webbrowser.open('http://google.com' + link_elems[i].get('href'))
14