Python 連続するURLをスクレイピングしCSVで保存

前提・実現したいこと

https://news.yahoo.co.jp/pickup/6375460
https://news.yahoo.co.jp/pickup/6375461
https://news.yahoo.co.jp/pickup/6375462

上記のような連続するURLから特定のタグだけスクレイピングをしCSVで保存したいのです。

理想は、CSVを開いたときに
　ニュースリスト
0,アップル、11月11日に特別イベント「One more thing.」--AppleシリコンMac登場か？
1,ＤｅＮＡが藤岡、石川ら７選手に戦力外通告
2,「エンジンの調子が悪かった」超軽量飛行機が畑に不時着 操縦していた70代男性と妻にケガなし 北見市

しかし、作成したコードでは
0,「エンジンの調子が悪かった」超軽量飛行機が畑に不時着 操縦していた70代男性と妻にケガなし 北見市

と最後のニュース名しか保存されておりません。

アドバイスを頂けましたら幸いです。

発生している問題・エラーメッセージ

連続するURLの出力はわかったのですが、
そこからニュース名を取得してしまうと、最後のURL分しかCSVに保存されておりません。

なんとなく、最初に連続してURLを表示するのではなく１個のURLを取得し→変数へを
繰り返すのだと思いますが、問題は取得したいURLが多くなればなるほどコードが長くなってしまいます。
できれば10ページや50ページなど指定してスクレイピングをしたいと考えております。

該当のソースコード

from bs4 import BeautifulSoup
from urllib import request
import csv

for i in range(3):
    url = f'https://news.yahoo.co.jp/pickup/' + f'{6375460 + i}'.zfill(7)
    print(url)

response = request.urlopen(url)
soup = BeautifulSoup(response)
response.close()

#　ニュース名
name = soup.find('p', class_='sc-hENMEE lnXRKU')
print(name.text)



csvlist = [["","ニュースリスト"]]
num = 0
for news_txt in name:
    news_txt = name.text
    csvlist.append([num, news_txt])
    num += 1

# CSVファイルを開く。ファイルがなければ新規作成する。
f = open("output.csv", "w")
writecsv = csv.writer(f, lineterminator='\n')

# 出力
writecsv.writerows(csvlist)

# CSVファイルを閉じる。
f.close()

試したこと

URLをひとつづつ入力して、nameに代入しましても、恐らく上書きされてしまっているらしく最後の取得したURL分のニュース名しか保存されておりません。

行動規範の内容に同意します

回答1件

ベストアンサー

ソースコードを拝見しましたが、for 文が4~~6行目で実行されたのち、url に最後の URLを代入してwebページを取得しています。(9~~11行目) そのため name には最後のURLから取得した内容のみが保存されるようです。

修正としては、nameをnamelistなどとして for で namelist に追加してあげるといいでしょう

修正内容

l.5~l.15 を次のように修正します。

python3
1namelist = []
2
3for i in range(3):
4    url = f'https://news.yahoo.co.jp/pickup/' + f'{6375460 + i}'.zfill(7)
5    print(url)
6
7    response = request.urlopen(url)
8    soup = BeautifulSoup(response)
9    
10    #　ニュース名
11    name = soup.find('p', class_='sc-hENMEE lnXRKU')
12    print(name)
13    namelist.append(name.text)
14response.close()

投稿2020/11/03 12:05

motty

総合スコア15

ooyuki

2020/11/04 07:56

解凍ありがとうございます。 listの考え方非常に参考になりました。早速コードを変更して、CSVに保存してみたのですが、問題が発生しました。ニュースリスト 0 ['アップル、アップル、11月11日に特別イベント「One more thing.」--AppleシリコンMac登場か？,ＤｅＮＡが藤岡、石川ら７選手に戦力外通告,「エンジンの調子が悪かった」超軽量飛行機が畑に不時着操縦していた70代男性と妻にケガなし北見市] 1 ['アップル、～略～] 2 ['アップル、～略～] と、URLの１から３までのタイトルがつながっており、３つとも同じタイトルになってしまいました。 csvlist = [["","ニュースリスト"]] num = 0 for news_txt in namelist: news_txt = namelist csvlist.append([num, news_txt]) num += 1 上記のようにコードを書きどこかで、namelist　の改行をいれなければ、いけないと思い　 for news_txt in namelist: news_txt = '\n'.join(namelist) にしてみましが、セル内で改行が出来ただけで、同じタイトルが３つならんでしまっております。アドバイスのほどよろしくお願いいたします。

motty

2020/11/04 16:19

こちらの方で list を反映させるコードを送り忘れておりました。 """ csvlist = [["","ニュースリスト"]] num = 0 for news_txt in name: news_txt = name.text csvlist.append([num, news_txt]) num += 1 """ を """ csvlist = [["","ニュースリスト"]] num = 0 for news_txt in namelist: #news_txt = name.text csvlist.append([num, news_txt]) num += 1 """ このように変更します。この処理で csvlist に [num, news_txt] が順に追加されます。 ooyukiさんの修正のアイデアもよかったのですが、リスト型の中にリスト型を入れる処理になってしまっています。 > csvlist.append([num(int), news_txt(=namelise(list)]) コードを書くときに型について意識を向けるとより良いコードが書けるようになるかと思います。

ooyuki

2020/11/05 02:10

MioK様のアドバイスにより希望する形になりました。貴重な時間を割いていただき誠にありがとうございました。

行動規範の内容に同意します