webスクレイピングをする際のfor文の書き方について

###やりたいこと
1日文のデータをスクレイピングしたいと考えてます。
例えば
https://www.AAA/1/
というサイトがあり、末尾の数字が1~12まで変化しこれを全て読み込ませたいと考えております。

書いたコード

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup

#URLの指定
Round = range(1.12)
for i in Round:
url = 'https://www.AAA/'+str(i)+'/'
html = urlopen(url)
bsObj = BeautifulSoup(html, "html.parser")

#テーブルを指定
table = bsObj.findAll("table")[1]
rows = table.findAll("tr")

csvFile = open("ebooks.csv", 'wt', newline = '', encoding = 'utf-8')
writer = csv.writer(csvFile)

try:
    for row in rows:
        csvRow = []
        for cell in row.findAll(['td', 'th']):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csvFile.close()

上記のように書いて
実行させたところ,csvファイルには最後の
https://www.AAA/12/
の読み込み結果しかcsvファイルに書き込まれていないという状況です。

解決したいこと

1.サイトの１〜１２まで全てをcsvファイルに書き込みたい
2.次の日にデータについては上書きせずそのまま更新されるようにしたいと思っております。

hayataka2049

2018/07/09 13:40

インデントが崩れてるっぽいので、修正してください

hayataka2049

2018/07/09 13:59

for i in Round:以下のところ。このままコピペして実行すると、エラー出ると思いますが・・・

行動規範の内容に同意します

回答1件

ベストアンサー

実行させたところ,csvファイルには最後の
https://www.AAA/12/
の読み込み結果しかcsvファイルに書き込まれていないという状況です。

こういう場合、最後のというより内容が上書きされていると判断して、ソースコードを確認したほうがいいです。

Python
1csvFile = open("ebooks.csv", 'wt', newline = '', encoding = 'utf-8')

↓

Python
1csvFile = open("ebooks.csv", 'at', newline = '', encoding = 'utf-8')

動作確認してませんが、こんな感じです。

Python
1import csv
2from urllib.request import urlopen
3from bs4 import BeautifulSoup
4
5#URLの指定
6for i in range(1, 12):
7    url = 'https://www.AAA/'+str(i)+'/'
8    html = urlopen(url)
9    bsObj = BeautifulSoup(html, "html.parser")
10
11#テーブルを指定
12    table = bsObj.findAll("table")[1]
13    rows = table.findAll("tr")
14    with open("ebooks.csv", 'at', newline = '', encoding = 'utf-8') as csvFile:
15        writer = csv.writer(csvFile)
16        for row in rows:
17            csvRow = []
18            for cell in row.findAll(['td', 'th']):
19                csvRow.append(cell.get_text())
20            writer.writerow(csvRow)