回答編集履歴

サンプルコードの掲載

2020/09/10 10:09

投稿

nto

スコア1438

test CHANGED Viewed

@@ -51,3 +51,301 @@
 	print('Done!')
 ```
+### 追記
+思っている通りの動作になっているかはわかりかねますが
+以下で、正常にpickle化・非pickle化しコードを正常に運転いただけるかと思います。
+コマンドライン引数にinitで初回はpickleの読み込みをしない仕様になっております。
+次回以降は引数を与えない事で、初めに非pickle化され、データが追記されていきます。
+```python
+from selenium import webdriver
+import time
+import csv
+import re
+from datetime import datetime, date, timedelta
+from selenium.webdriver.common.keys import Keys
+from selenium.webdriver.chrome.options import Options
+import sys
+import pickle
+def main(is_init):
+	if not is_init:
+		last_update_dict = pickle_read()
+	else:
+		last_update_dict = {}
+	print(last_update_dict)
+	csv_file_name = "satofuru" + ".csv"
+	f = open(csv_file_name, 'a',encoding='cp932', errors='ignore')
+	#ファイルへの書き込み
+	writer = csv.writer(f, lineterminator='\n')
+	csv_header = ["商品名", "投稿日","評価", "レビュー"]
+	writer.writerow(csv_header)
+	# 中略 ここに行いたい処理
+	for i in range(3, 4):
+		page_scraping(i, is_init, last_update_dict, writer)
+	f.close()
+	browser.close()
+	# 最後に今回抽出&上書きしたデータをdumpする。
+	pickle_save(last_update_dict)
+def page_scraping(page, is_init, last_update_dict, writer):
+	url = "https://www.satofull.jp/products/list.php?s4=%E5%8C%97%E6%B5%B7%E9%81%93&s3=%E7%B4%8B%E5%88%A5%E5%B8%82&sort=rev_cnt&cnt=60&p={}".format(page)
+	browser.get(url)
+	time.sleep(1.0)
+	elems = browser.find_elements_by_class_name('ItemList__link')
+	contain_review_links = []
+	review_links = []
+	# date_list = []
+	date_src_list = []
+	for elem in elems:
+		#各elemからimgタグのsrcを一覧で出す
+		review_score_src = elem.find_element_by_class_name('ItemList__review').find_element_by_tag_name('img').get_attribute('src')
+		if review_score_src == 'https://www.satofull.jp/static/master/packages/default/images/pic_star0.png':
+			pass
+		else:
+			# リンクを一覧で取得
+			contain_review_links.append(elem.get_attribute('href'))
+	for contain_review_link in contain_review_links:
+		time.sleep(1.0)
+		browser.get(contain_review_link)
+		# 商品ページからレビュー一覧へ
+		review_list_src = browser.find_element_by_css_selector('.V1808-dReview__head__btn a').get_attribute('href')
+		browser.get(review_list_src)
+		time.sleep(2.0)
+		pr_name = browser.find_element_by_css_selector('.product-name a').text
+		# '.table_style_01' = レビュー一覧ページ内のレビューリストの大枠
+		review_table = browser.find_elements_by_css_selector('.table_style_01')[2]
+		# review_lists = レビューリストの２番目からfor文を回す（１番目は項目のtr）
+		review_lists = review_table.find_elements_by_css_selector('tr')[1:]
+		for i, review_list in enumerate(review_lists):
+			# review_listで投稿日が昨日であれば、「続きを読む」のリンクを取得してcsvに抽出する
+			review_lists_date = review_list.find_elements_by_css_selector('td')[0].text
+			date_src_list.append(review_lists_date)
+			for date_src in date_src_list:
+				elem_date = str2date(date_src)
+			if is_init:
+				if i == 0:
+					last_update_dict[pr_name] = elem_date
+					review_link_list = review_list.find_element_by_css_selector('a').get_attribute('href')
+					review_links.append(review_link_list)
+			elif is_bf_yesterday(elem_date, last_update_dict[pr_name]):
+				# 昨日の日付の場合はhrefリンクを取得し、リストにする（review_links）
+				review_link_list = review_list.find_element_by_css_selector('a').get_attribute('href')
+				review_links.append(review_link_list)
+	for review_link in review_links:
+		print('review_link ok')
+		csv_list = []
+		time.sleep(2.0)
+		browser.get(review_link)
+		elem_product_name = browser.find_element_by_css_selector('.product-name a')
+		product_name = elem_product_name.text
+		review_box = browser.find_element_by_css_selector('.review_info')
+		review_elems = review_box.find_elements_by_css_selector('tr td')
+		review_date = review_elems[0].text
+		review_score = 0
+		imgs = review_box.find_elements_by_css_selector('.valuation img')
+		for img in imgs:
+			src = img.get_attribute("src")
+			if src == 'https://www.satofull.jp/static/master/packages/default/images/common/star_a.png':
+				review_score += 1
+		review = review_box.find_element_by_css_selector('.comment_area').text
+		csv_list.append(product_name)
+		csv_list.append(review_date)
+		csv_list.append(review_score)
+		csv_list.append(review)
+		writer.writerow(csv_list)
+def str2date(date_str):
+	result = re.search(r'(\d{4})年(\d{1,2})月(\d{1,2})日', date_str)
+	tar_date = datetime(int(result[1]), int(result[2]), int(result[3]))
+	return tar_date
+def is_bf_yesterday(tar_date, last_update_date):
+	# now = datetime.now()
+	# yesterday = now - timedelta(days=1)
+	last_update_date_str = datetime.strftime(last_update_date, '%Y-%m-%d')
+	tar_date_str = datetime.strftime(tar_date, '%Y-%m-%d')
+	return tar_date_str > last_update_date_str
+def pickle_read():
+	with open(fine_name,'rb') as f:
+		p = pickle.load(f)
+	return p
+def pickle_save(data):
+	with open(fine_name, 'wb') as f:
+		pickle.dump(data, f)
+	print('Done!')
+if __name__ == "__main__":
+	fine_name = 'pickle.binaryfile'
+	browser = webdriver.Chrome()
+	if len(sys.argv) >= 2:
+		if sys.argv[1] == 'init':
+			main(is_init=True)
+	else:
+		main(False)
+```

修正

2020/09/10 10:09

投稿

nto

スコア1438

test CHANGED Viewed

@@ -44,7 +44,7 @@
 def pickle_save(data):
-	with open(file_name, 'w') as f:
+	with open(file_name, 'wb') as f:
 		pickle.dump(data, f)

2020/09/10 10:01

投稿

nto

スコア1438

test CHANGED Viewed

@@ -1,6 +1,6 @@
 最終的にはこの様な構造でコーディングしていけば良いと思います。
-コードを実行する時に、pickleを読み取るかどうかはgomasan様の中のルールや条件というものがあるでしょうから、それに従ってif文などで処理してください。
+コードを実行する時に、pickleを読み取るかどうかはgomasan様の中のルールや条件というものがあるでしょうから、それに従ってif文などで処理してください。(初回起動である場合にも読み取る必要ない)