質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1812閲覧

Pythonスクレイピング:csvファイルの書き込みについて

gomasan

総合スコア96

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/08/13 14:22

前提・実現したいこと

Pythonを使ったスクレイピングを行っています。
スプレッドシートへの連携を主にしておりますが、100秒の読み込みルールに引っかかるサイトを
csvを使って抽出しようとしています。

発生している問題・エラーメッセージ

for文が期待通りに回らない

該当のソースコード

python

1import requests 2from bs4 import BeautifulSoup 3import csv 4import datetime 5import time 6 7for page in range(91614, 91615): 8 url = "https://xxx.jp/review_list.aspx?pid={}".format(page) 9 r = requests.get(url) 10 soup = BeautifulSoup(r.text, 'lxml') 11 time.sleep(2.0) 12 13 post_time = soup.select('.review_info') 14 15 # 現在の時刻を年、月、日、時、分、秒で取得 16 time_ = datetime.datetime.today().strftime("%Y%m%d") 17 18 csv_file_name = "sample" + time_ + ".csv" 19 f = open(csv_file_name, 'w',encoding='cp932', errors='ignore') 20 21 #ファイルへの書き込み 22 writer = csv.writer(f, lineterminator='\n') 23 24 #headerの指定 25 csv_header = ["投稿日"] 26 writer.writerow(csv_header) 27 28 csvlist = [] 29 for e in post_time: 30 csvlist.append(e.get_text()) 31 writer.writerow(csvlist) 32 print(csvlist) 33 34 f.close()

現在の抽出結果

1行目:(A列)2020年8月13日 2行目:(A列)2020年8月13日 (B列)2020年8月12日 3行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 4行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日 5行目:(A列)2020年8月13日 (B列)2020年8月12日 (C列)2020年8月11日 (D列)2020年8月10日 (E列)2020年8月09日

実現したい抽出結果

1行目:(A列)2020年8月13日 2行目:(A列)2020年8月12日 3行目:(A列)2020年8月11日 4行目:(A列)2020年8月10日 5行目:(A列)2020年8月09日

for文の使い方が良くないのでしょうか...
お手数おかけしますが、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

配列をprintしていることが問題かと。
出力に配列を使ってしまっているために、i行目に、i-1行目に書かれていることに新しい情報を付け加えたようになってしまっています。

つまり、

[0,1,2,3,4]

という配列があったとき、

[0] #1を追加 [0,1] #2を追加 [0,1,2] #3を追加 [0,1,2,3] #4を追加 [0,1,2,3,4]

この様な配列が順に生成され、そのままファイルに出力されている、ということです。

投稿2020/08/13 14:31

Luke02561

総合スコア404

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gomasan

2020/08/13 14:40

ありがとうございます!! 配列の置き場所とprintの関係性も良くなかったようですね。。ご丁寧にありがとうございます。結果もいただき中身を理解することができました。本当にありがとうございます。
guest

0

ベストアンサー

csvlist = []for e in post_time:ループの中にいれましょう。
あるいは単純にwriter.writerow([e.get_text()])でもよいでしょう。

投稿2020/08/13 14:30

can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gomasan

2020/08/13 14:38

ありがとうございます...! csvlist = []をfor e in post_time:ループの中に入れたら理想の結果になりました。。。そしてfor文の動きも理解できました。ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問