Pythonスクレイピング：csvファイルの書き込みについて

前提・実現したいこと

Pythonを使ったスクレイピングを行っています。
スプレッドシートへの連携を主にしておりますが、100秒の読み込みルールに引っかかるサイトを
csvを使って抽出しようとしています。

発生している問題・エラーメッセージ

for文が期待通りに回らない

該当のソースコード

python
1import requests
2from bs4 import BeautifulSoup
3import csv
4import datetime
5import time
6
7for page in range(91614, 91615):
8    url = "https://xxx.jp/review_list.aspx?pid={}".format(page)
9    r = requests.get(url)
10    soup = BeautifulSoup(r.text, 'lxml')
11    time.sleep(2.0)
12
13    post_time = soup.select('.review_info')
14
15    # 現在の時刻を年、月、日、時、分、秒で取得
16    time_ = datetime.datetime.today().strftime("%Y%m%d")
17
18    csv_file_name = "sample" + time_ + ".csv"
19    f = open(csv_file_name, 'w',encoding='cp932', errors='ignore')
20
21    #ファイルへの書き込み
22    writer = csv.writer(f, lineterminator='\n')
23
24    #headerの指定
25    csv_header = ["投稿日"]
26    writer.writerow(csv_header)
27
28    csvlist = []
29      for e in post_time:
30          csvlist.append(e.get_text())
31          writer.writerow(csvlist)
32          print(csvlist)
33
34    f.close()

現在の抽出結果

１行目：(A列)2020年8月13日
２行目：(A列)2020年8月13日 (B列)2020年8月12日
３行目：(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日
４行目：(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日
５行目：(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日 (E列)2020年8月09日

実現したい抽出結果

１行目：(A列)2020年8月13日
２行目：(A列)2020年8月12日
３行目：(A列)2020年8月11日
４行目：(A列)2020年8月10日
５行目：(A列)2020年8月09日

for文の使い方が良くないのでしょうか...
お手数おかけしますが、よろしくお願いいたします。

行動規範の内容に同意します

回答2件

配列をprintしていることが問題かと。
出力に配列を使ってしまっているために、i行目に、i-1行目に書かれていることに新しい情報を付け加えたようになってしまっています。

つまり、

[0,1,2,3,4]

という配列があったとき、

[0]
#1を追加
[0,1]
#2を追加
[0,1,2]
#3を追加
[0,1,2,3]
#4を追加
[0,1,2,3,4]

この様な配列が順に生成され、そのままファイルに出力されている、ということです。

投稿2020/08/13 14:31

Luke02561

総合スコア404

gomasan

2020/08/13 14:40

ありがとうございます!! 配列の置き場所とprintの関係性も良くなかったようですね。。ご丁寧にありがとうございます。結果もいただき中身を理解することができました。本当にありがとうございます。

行動規範の内容に同意します

ベストアンサー

csvlist = []はfor e in post_time:ループの中にいれましょう。
あるいは単純にwriter.writerow([e.get_text()])でもよいでしょう。

投稿2020/08/13 14:30

8524ba23

総合スコア38341

gomasan

2020/08/13 14:38

ありがとうございます...! csvlist = []をfor e in post_time:ループの中に入れたら理想の結果になりました。。。そしてfor文の動きも理解できました。ありがとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonスクレイピング：csvファイルの書き込みについて

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

現在の抽出結果

実現したい抽出結果

関連した質問