質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1751閲覧

webスクレイピングをする際のfor文の書き方について

shunsuke1937

総合スコア48

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2018/07/09 13:38

編集2018/07/09 13:55

###やりたいこと
1日文のデータをスクレイピングしたいと考えてます。
例えば
https://www.AAA/1/
というサイトがあり、末尾の数字が1~12まで変化しこれを全て読み込ませたいと考えております。

書いたコード

import csv from urllib.request import urlopen from bs4 import BeautifulSoup #URLの指定 Round = range(1.12) for i in Round: url = 'https://www.AAA/'+str(i)+'/' html = urlopen(url) bsObj = BeautifulSoup(html, "html.parser") #テーブルを指定 table = bsObj.findAll("table")[1] rows = table.findAll("tr") csvFile = open("ebooks.csv", 'wt', newline = '', encoding = 'utf-8') writer = csv.writer(csvFile) try: for row in rows: csvRow = [] for cell in row.findAll(['td', 'th']): csvRow.append(cell.get_text()) writer.writerow(csvRow) finally: csvFile.close()

上記のように書いて
実行させたところ,csvファイルには最後の
https://www.AAA/12/
の読み込み結果しかcsvファイルに書き込まれていないという状況です。

解決したいこと

1.サイトの1〜12まで全てをcsvファイルに書き込みたい
2.次の日にデータについては上書きせずそのまま更新されるようにしたいと思っております。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2018/07/09 13:40

インデントが崩れてるっぽいので、修正してください
hayataka2049

2018/07/09 13:59

for i in Round:以下のところ。このままコピペして実行すると、エラー出ると思いますが・・・
guest

回答1

0

ベストアンサー

実行させたところ,csvファイルには最後の
https://www.AAA/12/
の読み込み結果しかcsvファイルに書き込まれていないという状況です。

こういう場合、最後のというより内容が上書きされていると判断して、ソースコードを確認したほうがいいです。

Python

1csvFile = open("ebooks.csv", 'wt', newline = '', encoding = 'utf-8')

Python

1csvFile = open("ebooks.csv", 'at', newline = '', encoding = 'utf-8')

動作確認してませんが、こんな感じです。

Python

1import csv 2from urllib.request import urlopen 3from bs4 import BeautifulSoup 4 5#URLの指定 6for i in range(1, 12): 7 url = 'https://www.AAA/'+str(i)+'/' 8 html = urlopen(url) 9 bsObj = BeautifulSoup(html, "html.parser") 10 11#テーブルを指定 12 table = bsObj.findAll("table")[1] 13 rows = table.findAll("tr") 14 with open("ebooks.csv", 'at', newline = '', encoding = 'utf-8') as csvFile: 15 writer = csv.writer(csvFile) 16 for row in rows: 17 csvRow = [] 18 for cell in row.findAll(['td', 'th']): 19 csvRow.append(cell.get_text()) 20 writer.writerow(csvRow)

投稿2018/07/09 14:05

編集2018/07/09 14:07
umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

shunsuke1937

2018/07/09 22:37

ご回答ありがとうございました。 結果を抽出することができました。 また、一つ一つの要素を理解します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問