質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.63%

Pythonスクレイピング:正規表現での「年」の取り扱いについて

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 185

gomasan

score 50

前提・実現したいこと

Pythonでサイトの口コミをスクレイピングしています。
また、結果をcsvに抽出しています。
ライブラリ:selenium

発生している問題

正規表現を使って、昨日の日付のみ抽出したいのですが、
2019年の口コミになると以下の通りエラーとなります。

Traceback (most recent call last):
  File "/Users/xxx/Desktop/ファイル/choice/xxx.py", line 66, in <module>
    review_date = str2date(review_date_str)
  File "/Users/xxx/Desktop/ファイル/choice/xxx.py", line 9, in str2date
    tar_date = datetime(int(result[1]), int(result[2]), int(result[3]))
TypeError: 'NoneType' object is not subscriptable

該当のソースコード

コード全体

from selenium import webdriver
import time
import csv
import re
from datetime import datetime, date, timedelta

def str2date(date_str):
        result = re.search(r'(\d{4})年(\d{1,2})月(\d{1,2})日', date_str) 
        tar_date = datetime(int(result[1]), int(result[2]), int(result[3]))
        print(result[1])
        return tar_date

def is_yesterday(tar_date):
        now = datetime.now()
        yesterday = now - timedelta(days=1)
        yesterday_str = datetime.strftime(yesterday, '%Y-%m-%d')
        tar_date_str = datetime.strftime(tar_date, '%Y-%m-%d')

        return tar_date_str == yesterday_str

# 現在の時刻を年、月、日、時、分、秒で取得
time_ = datetime.today().strftime("%Y%m%d")

csv_file_name = "choice" + time_ + ".csv"
f = open(csv_file_name, 'w',encoding='cp932', errors='ignore')

#ファイルへの書き込み
writer = csv.writer(f, lineterminator='\n')

#headerの指定
csv_header = ["商品名", "投稿日","レビュー"]
writer.writerow(csv_header)

# ブラウザを開く
browser = webdriver.Chrome()
# URLを開く
url = "https://www.furusato-tax.jp/city/product/01219?incsoldout=1&sort=11&page=1"
browser.get(url)
time.sleep(1.0)
elems_box = browser.find_element_by_css_selector('.result-search')
elems = elems_box.find_elements_by_css_selector('.card-product')
review_score_src_list = []
contain_review_links = []
review_links = []
for elem in elems[4:6]:
        time.sleep(1.0)
        # 3のaタグがclass = 'card-product__comment'である場合のみ、先に進む
        card_products = elem.find_elements_by_css_selector('a')[2]
        elem_card_products = card_products.get_attribute('class')
        if elem_card_products != 'card-product__comment':
                continue
        else:
                contain_review_links.append(card_products.get_attribute('href'))

for contain_review_link in contain_review_links:
        time.sleep(1.0)
        browser.get(contain_review_link)
        review_lists = browser.find_elements_by_css_selector('.review-list__content')
        for review_list in review_lists:
                csv_list = []
                product_name = review_list.find_element_by_css_selector('.review-list__name').text[3:]
                review_date_str = review_list.find_element_by_css_selector('.review-list__date').text[4:14]
                review_date = str2date(review_date_str)
                review_body = review_list.find_element_by_css_selector('.review-list__text').text.replace('\n','')
                if is_yesterday(review_date):
                        csv_list.append(product_name)
                        csv_list.append(review_date)
                        csv_list.append(review_body)
                        writer.writerow(csv_list)

f.close()
browser.close()

エラー箇所

line9:
tar_date = datetime(int(result[1]), int(result[2]), int(result[3]))

line66:
review_date = str2date(review_date_str)

試したこと

 print(result[1])


で年をprintした結果、

2020
2020
2020
2020
2020
2020
2020
Traceback (most recent call last):
  File "/Users/xxx/Desktop/ファイル/choice/xxx.py", line 66, in <module>
    review_date = str2date(review_date_str)
  File "/Users/xxx/Desktop/ファイル/choice/xxx.py", line 9, in str2date
    tar_date = datetime(int(result[1]), int(result[2]), int(result[3]))
TypeError: 'NoneType' object is not subscriptable


となります。

理想の結果としては、

2020
2020
2020
2020
2020
2020
2020
2019
2019
2019


です。

正規表現の書き方の問題なのか、調べてもこの年の取り扱いがいまいち分からず...
ご教示いただけますと幸いです。
よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • otn

    2020/08/30 22:47

    どこから期待通りでなくなっているのか、遡って調べましょう。

    キャンセル

回答 1

checkベストアンサー

0

ええと、これは2019のマッチに失敗しているわけではありません。年月日の文字列を切り取るスライスに問題があります。

review_date_str = review_list.find_element_by_css_selector('.review-list__date').text[4:14]

.review-list__dateクラスのテキストには「投稿日:2019年12月15日 12:17」といった形式の文字列が格納されています。

現在のスライス[4:14]だと、「12月15日」のように、月と日の数値がともに2桁の場合、スライスした文字列に「日」が含まれないのです。その結果、str2dateでの正規表現のマッチに失敗し、resultNoneになります。当然、result[1]などを参照すれば、提示されているエラーが発生します。

2020年のデータはまだ月の数値が2桁のものが存在しないため、2019年のデータになってはじめて問題が露呈したというわけ。

対策としては、スライスを[4:]に修正して、

review_date_str = review_list.find_element_by_css_selector('.review-list__date').text[4:]

のようにすれば、「12月15日」などでも問題なくマッチするようになります。修正前とは違って、時刻の文字列までスライスで得られますが、($を使っていないので)正規表現のマッチに問題は起きません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/08/31 09:57

    ありがとうございます!!言われて確かにと納得しました..とても丁寧な解説をありがとうございます。よく理解できました。本当にありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.63%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る