WEBスクレイピング

PythonによるWEBスクレイピングを試みています。

モジュールは、requestsとbs4を採用しています。
環境は、Windows＋ChromeにJupyter Notebook、Python3です。

python3
1import requests
2from bs4 import BeautifulSoup
3
4url = "foobar"
5headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
6
7html = requests.post(url, headers=headers)
8print(html)
9
10soup = html.text
11print(soup)
12
13beautiful = BeautifulSoup(soup)
14
15res = beautiful.find_all("span")
16print(res)

print関数で検証していると、どうも変数htmlをprintしたところで、取得ができなくなっているようです。
ただ、不思議なのですが、時間をおいたうえで、実行してみると初回だけはしっかりとデータを取得できているので、スクレイピングができないわけではなさそうです。
ブラウザキャッシュの問題かと思い、クリアをしてみたりもしたのですが、特に変化はなく、困っているところです。
通常のブラウザで表示した場合は、そのページではページネーション化されたコンテンツが表示されるようになっています。
Pythonで表示した場合は、初回は期待通りにブラウザで表示すると同様の結果が得られますが、続けて2回目を実行すると画像や文字列が文字化けしたページの結果を取得してしまいます。

原因がよく分からないので、心当たりのある方がいらっしゃいましたら、ご教示いただけますと幸いです。

よろしくお願いいたします。

行動規範の内容に同意します

回答2件

自己解決

ありがとうございました。
解決したかもしれないです。
どうも、長時間にわたってPCの電源を入れ続けていたため、メモリキャッシュがいっぱいになっていて、うまく取得できていなかったのかもしれません。
今のところは安定しているので、しばらくは様子見してみようと思います。
もし調子が良くなくなったら、また質問させていただきたいと思います。

投稿2019/08/08 14:55

Aneks

総合スコア114

postされている理由がちょっとよくわからないですが、ターゲットURLを渡してGETして、
パーサー利用するのがよくある方法だと思います。

python
1url = 'https://www.google.com'
2html = requests.get(url).text
3soup = BeautifulSoup(html, "lxml")
4something = soup.select('.something')

投稿2019/08/06 23:56

koji.kanao

総合スコア16

Aneks

2019/08/08 09:51

ありがとうございます。 postにしているのは、getにしてみても結果が同じで、ブラウザ側ではpostしていたため、同様にpostさせてみようかと思って試したためです。やはり書き方はそうなりますよね。初回は、取れるのですが、2回連続に実行すると2回目からは取得できなくなるんですよね。エラーが出ているわけでもなく、ステータスコードも200がかえってくるので、存在しないページというわけではなさそうなんですけどねー。

行動規範の内容に同意します

あなたの回答