スクレイピングで取得した情報だけではなく、URLの一部に用いたパラメータも書き出したい

前提・実現したいこと

　スクレイピング用のコードを書いています。目当ての情報をウェブから取得して保存するところまでできました。
このコードに、アクセス用のURLを作る上で用いたURLのパラメータも書き出す機能を追加したいと思っています。

詳細

現状は、下記のように取得した"('h2')"の情報がただ並んでいるだけのデータができます。

('h2')
('h2')
('h2')
.
.
.

これを、

{page_id}
('h2')
{page_id}
('h2')
{page_id}
('h2')
・
・
・

という風にし、どのパラメータの情報なのかわかるようにしたいです。
今のままでは、情報は取得できるけど、どのパラメータの情報なのかわからないので不便なのです。

どなたか正解例がわかる方、宜しくお願いします。

該当のソースコード

import requests, bs4
import csv
import time

def scrape(url, csv_writer):
    res = requests.get(url)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    elems = soup.select ('h2')
    for elem in elems:
        print(elem)
        csv_writer.writerows(elems)

    time.sleep(1)

def main(f):
     writer = csv.writer(f)
     with open('id_list.txt') as f:
          page_id_list = [int(row) for row in f]
     for page_id in page_id_list:
          print(page_id)
          scrape(f'https://news.yahoo.co.jp/pickup/{page_id}', writer)

if __name__ == '__main__':
    with open('news.csv', 'w', encoding='CP932', errors='ignore') as f:
        main(f)

試したこと

print(page_id)でパラメータを表示できたので、csv_writer.writerows(page_id)とかf.write(page_id)というコードが有効だと思ったのですが、どこに書き込んでもエラーが出てしまいました。

行動規範の内容に同意します

回答1件

ベストアンサー

scrape関数内ではpage_idは引数でも変数としても定義されていないので使えません。scrape呼び出し元から引数として渡してやればいいでしょう。

def scrape(url, page_id_for_scrape, csv_writer): # 変更
    res = requests.get(url)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    elems = soup.select ('h2')
    for elem in elems:
        print(elem)
        csv_writer.writerows(elems)
    csv_writer.write(page_id_for_scrape)  # 変更

    time.sleep(1)

def main(f):
     writer = csv.writer(f)
     with open('id_list.txt') as f:
          page_id_list = [int(row) for row in f]
     for page_id in page_id_list:
          print(page_id)
          scrape(f'https://news.yahoo.co.jp/pickup/{page_id}', page_id, writer) # 変更

ちなみにcsv_writer.writerows(elems)はcsv_writer.writerows(elem)のあやまりですかね？

あと、page_idを引数として渡さなくともURLの末尾にあることがかわらないのであれば以下のようにするのもありでしょうか。

import requests, bs4
import csv
import time

def scrape(url, csv_writer):
    res = requests.get(url)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text, "html.parser")
    elems = soup.select ('h2')
    for elem in elems:
        print(elem)
        csv_writer.writerows(elems)
    page_id_for_scrape = url.split('/')[-1]  # /区切りの末尾を取得
    csv_writer.write(page_id_for_scrape)  # 変更

    time.sleep(1)

def main(f):
     writer = csv.writer(f)
     with open('id_list.txt') as f:
          page_id_list = [int(row) for row in f]
     for page_id in page_id_list:
          print(page_id)
          scrape(f'https://news.yahoo.co.jp/pickup/{page_id}', writer)

if __name__ == '__main__':
    with open('news.csv', 'w', encoding='CP932', errors='ignore') as f:
        main(f)

投稿2018/06/18 13:50

denzow

総合スコア640

etherwind

2018/06/18 14:05

素早いご回答ありがとうございます。とりあえず、一つ目のご提案の方をコピペで試してみたのですが、「AttributeError: '_csv.writer' object has no attribute 'write'」エラーが出てしまいました。コードは質問用に組んだもので、実際のコード上では「page_id」がURLの中ほどにあるのですm(_ _)m

etherwind

2018/06/18 14:07

id_list.txtの中身です 6286588 6286594 6286582

denzow

2018/06/18 14:15

申し訳ないです。`csv_writer.write(page_id_for_scrape)`が誤っていました。 `csv_writer.writerow([page_id_for_scrape])`で差し替えてみてどうなりますか？

etherwind

2018/06/18 14:19

ありがとうございます。修正コードに差し替えたところ、無事実現したいことができましたm(__)m (elems)と(elem)の違いについてはわかりませんが、どちらでも動くので、(elem)の方に直したほうがいいのかな、というレベルの知識しかないです。すみません。とりあえず解決はしたのでクローズとさせていただきます。denzowさんありがとうございました。

行動規範の内容に同意します