前提・実現したいこと
Pythonを使ったスクレイピングを行っています。
スプレッドシートへの連携を主にしておりますが、100秒の読み込みルールに引っかかるサイトを
csvを使って抽出しようとしています。
発生している問題・エラーメッセージ
for文が期待通りに回らない
該当のソースコード
python
1import requests 2from bs4 import BeautifulSoup 3import csv 4import datetime 5import time 6 7for page in range(91614, 91615): 8 url = "https://xxx.jp/review_list.aspx?pid={}".format(page) 9 r = requests.get(url) 10 soup = BeautifulSoup(r.text, 'lxml') 11 time.sleep(2.0) 12 13 post_time = soup.select('.review_info') 14 15 # 現在の時刻を年、月、日、時、分、秒で取得 16 time_ = datetime.datetime.today().strftime("%Y%m%d") 17 18 csv_file_name = "sample" + time_ + ".csv" 19 f = open(csv_file_name, 'w',encoding='cp932', errors='ignore') 20 21 #ファイルへの書き込み 22 writer = csv.writer(f, lineterminator='\n') 23 24 #headerの指定 25 csv_header = ["投稿日"] 26 writer.writerow(csv_header) 27 28 csvlist = [] 29 for e in post_time: 30 csvlist.append(e.get_text()) 31 writer.writerow(csvlist) 32 print(csvlist) 33 34 f.close()
現在の抽出結果
1行目:(A列)2020年8月13日 2行目:(A列)2020年8月13日 (B列)2020年8月12日 3行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 4行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日 5行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日 (E列)2020年8月09日
実現したい抽出結果
1行目:(A列)2020年8月13日 2行目:(A列)2020年8月12日 3行目:(A列)2020年8月11日 4行目:(A列)2020年8月10日 5行目:(A列)2020年8月09日
for文の使い方が良くないのでしょうか...
お手数おかけしますが、よろしくお願いいたします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/08/13 14:40