PythonでCSVのデータを配列化して繰り返し処理したい

更新チェッカを作っています。
単体で動作を確認できたので、CSVからデータを配列化して
ファイルの最後まで読み込んで複数のデータをチェックしたいのですが、うまく動作しません。
どこが悪いかわからず四苦八苦しています。アドバイスを頂けないでしょうか？

このプログラムの動作：
データを取得し、code.txtで保存
次回取得時にcode.txtとデータを比較し、差がないかを比較

期待する動作：
変化あり[前回のデータ][今回のデータ]
True

現状の動作：
変化なし[][]
False

このように、データの取得値が空になり、尚且ｔｘｔファイルも作成されません。

◎ 単体動作確認済み

import requests
import bs4
import re
import datetime
import pytz

code = '6653'
name = '正興電機製作所'
url = 'https://www.seiko-denki.co.jp/news/'
class_name ='#contents > table > tr:nth-child(1)'

file = code + '.txt'
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text,'html.parser') # Parser
title = soup.find('title').text # title 取得

now = datetime.datetime.now(pytz.timezone('Asia/Tokyo'))


def get_website():
    # 更新を検知したい箇所を指定
    elems = soup.select(class_name) # copy -> selector
    str_elems = str(elems) # stringに変換
    str_elems = str_elems.replace('\r','') # '\r'を削除
    try:
        f = open(file)
        old_elems  = f.read()
    except:
        old_elems = ' '
    if(str_elems == old_elems):
        print ('変化なし' + str_elems + old_elems)
        return False
    else:
        f = open(file, 'w') # 上書きする
        f.writelines(str_elems)
        f.close()
        print('変化あり' + str_elems + old_elems)
        return True

get_website()

× CSVを読み込み配列化したデータを読み込んで繰り返し処理

import requests
import bs4
import re
import datetime
import pytz
import csv

with open("search_list.csv") as f:
  for row in csv.reader(f):
    code = f"{row[0]}"
    name = f"{row[1]}"
    url = f"{row[2]}"
    class_name = f"{row[3]}"

    file = code + '.txt'
    res = requests.get(url)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text,'html.parser') # Parser
    title = soup.find('title').text # title 取得
    now = datetime.datetime.now(pytz.timezone('Asia/Tokyo'))

    def get_website():
        # 更新を検知したい箇所を指定
        elems = soup.select(class_name) # copy -> selector
        str_elems = str(elems) # stringに変換
        str_elems = str_elems.replace('\r','') # '\r'を削除
        try:
            f = open(file)
            old_elems  = f.read()
        except:
            old_elems = ' '
        if(str_elems == old_elems):
            print ('変化なし' + str_elems + old_elems)
            return False
        else:
            f = open(file, 'w') # 上書きする
            f.writelines(str_elems)
            f.close()
            print('変化あり' + str_elems + old_elems)
            return True

get_website()

上記用CSVファイル「search_list.csv」

6653,正興電機製作所,https://www.seiko-denki.co.jp/news/,#contents > table > tr:nth-child(1)
5491,日本金属,https://www.nipponkinzoku.co.jp/,#wrap > section:nth-child(1) > div > div.info > ul > li.first

よろしくお願いいたします。

退会済みユーザー

2021/02/20 05:55

＞「うまく動作しません。」具体的にはどういう状況なのでしょうか？１.エラーが発生して止まる　→編集ボタンを押して、発生したエラー内容を、質問欄のソースコード入力ブロック内にすべて追記してください。２.エラーは発生せず一応動いているが、想定したとおりに動かない →現状の動作と、期待する動作を質問欄に追記してください。

行動規範の内容に同意します

回答1件

ベストアンサー

「× CSVを読み込み配列化したデータを読み込んで繰り返し処理」のソースだと、
search_txtに記載されているリストのうち、最後の行しか比較されません。

直す方向性として、for文を外に出して、get_website()関数に、。serach_listから読み込んだ行を渡すというやり方になると思います。

import　略

def get_website(row):
    code = f"{row[0]}"
    name = f"{row[1]}"
    url = f"{row[2]}"
    class_name = f"{row[3]}"

～略～
    else:
        f = open(file, 'w') # 上書きする
        f.writelines(str_elems)
        f.close()
        print('変化あり' + str_elems + old_elems)
        return True

with open("search_list.csv",encoding="utf-8") as f:
  for row in csv.reader(f):
      get_website(row)

なお、個々のページがスクレイピングを許可しているか判断できないため、私自身は上記のコードのうちスクレイピング部分をダミーコードに置き換えてテストしたのみで、スクレイピングは実行していません。

したがって、上記コードの通り修正し、プログラムの流れそのものが想定どおりになったとしても、スクレイピングそのものがうまく行っていないという理由で期待した動作にならない可能性がありますが、それについては検知しません。

投稿2021/02/20 06:52

退会済みユーザー

総合スコア0