回答編集履歴

軽微な修正

2020/08/13 06:13

投稿

nto

スコア1438

answer CHANGED Viewed

@@ -54,27 +54,27 @@
 		res = requests.get(url)
 		self.soup = BeautifulSoup(res.content, 'html.parser')
 		self.query = res.url[len(domain):]
+		if not self.soup.find('li', string='レビューの投稿はありません'):
-		self.spread_writes()
+			self.spread_writes()
 	def spread_writes(self):
 		elems = ["#breadcrumb ul.cf li:nth-of-type(3)", "#breadcrumb ul.cf li:nth-of-type(4)",
 				'.review_review_text', '.review_info', ".product_rep"]
-		if self.soup.find('li', string='レビューの投稿はありません'):
-			return
-		else:
-			elements = [self.soup.select(e) for e in elems]
-			area = elements[0][0].string
-			item = elements[1][0].string
-			postdates = elements[3]
-			comments = elements[2]
-			reviews = elements[4]
-			cnt = 1
-			for pd, cmt, rv in tqdm(zip(postdates, comments, reviews), total=len(postdates), desc=f'id{self.pageid} page{self.pagenum} writing', leave=False):
-				rv = rv.i["class"][0].replace('rep_','').replace('_','.')
-				datas = [area, item, pd.text, cmt.text, rv]
-				worksheet.append_row(datas)
-				time.sleep(0.8)
+		elements = [self.soup.select(e) for e in elems]
+		area = elements[0][0].string
+		item = elements[1][0].string
+		postdates = elements[3]
+		comments = elements[2]
+		reviews = elements[4]
+		cnt = 1
+		for pd, cmt, rv in tqdm(zip(postdates, comments, reviews), total=len(postdates), desc=f'id{self.pageid} page{self.pagenum} writing', leave=False):
+			rv = rv.i["class"][0].replace('rep_','').replace('_','.')
+			datas = [area, item, pd.text, cmt.text, rv]
+			worksheet.append_row(datas)
+			time.sleep(0.8)
 		if self.soup.find('a', string='次へ').get('href') != self.query:
 			self.pagenum += 1
 			self.pagedata_create()

追記

2020/08/13 06:13

投稿

nto

スコア1438

answer CHANGED Viewed

@@ -32,8 +32,8 @@
 from oauth2client.service_account import ServiceAccountCredentials
 import gspread
 import time
+from tqdm import tqdm
 scope = ['https://spreadsheets.google.com/feeds',
 		'https://www.googleapis.com/auth/drive']
 credentials = ServiceAccountCredentials.from_json_keyfile_name('ファイル名.json', scope)

追記

2020/08/13 04:28

投稿

nto

スコア1438

answer CHANGED Viewed

@@ -9,11 +9,23 @@
 ### 追記
-ある程度を纏めました。
+改めて修正致しました。
-以下でご所望の形でスプレッドシートに追記していく事が出来ると思います。
+クラス化してしまい、for文で回すという形を取りました。
+大半は前回の追記と変わりませんが、classを使用する事で次のページへの遷移を楽にしました。
+**次のページへのリンクURLと、現在開いているページURLが異なる**(次のページがある)といった場合に
-他に質問をされいてた最終行の追加ですが`append_row()`で最終行の次の行に書き込みをする事が出来ます。
+`self.pagenum += 1`とし、もう一度`self.pagedata_create`を実行する事で次のページへの遷移を実現しております。
+また、件数が膨大になってしまう事を懸念し勝手ながら`tqdm`で進捗状況を計れる様にしました。
+(ご不要の場合には`zip(postdates, comments, reviews)`とし、tqdm内オプションを取り外して下さい。)
+スプレッドシートへの書き込みですが
+API側で書き込みが出来る件数が定められている様です。(通常は100秒に100件まで)
+ネット環境にも依存すると思いますがtime.sleep()での制御を任意で調整して下さい。
+tqdmによるプログレスバーにて1件あたりの書き込みに何秒が要しているか確認ができます。
+1.1~1.2sec程度になる様に抑えてあげるといいでしょう。
+1.0~1.1secで設定するとたまに書き込み制限されてしまいエラーで弾かれてしまいます。
 ```python
 import requests
 from bs4 import BeautifulSoup
@@ -28,33 +40,48 @@
 gc = gspread.authorize(credentials)
 SPREADSHEET_KEY = 'スプレッドシートキー'
 worksheet = gc.open_by_key(SPREADSHEET_KEY).sheet1
+domain = 'https://furunavi.jp'
+class Main:
-def sample(pageid):
+	def __init__(self, pageid):
+		self.pageid = pageid
+		self.pagenum = 1
+	def pagedata_create(self):
+		domain = 'https://furunavi.jp'
-	url = 'https://furunavi.jp/review_list.aspx?pid={}'.format(pageid)
+		url = '{}/review_list.aspx?pid={}&p={}'.format(domain, self.pageid, self.pagenum)
-	res = requests.get(url)
+		res = requests.get(url)
-	soup = BeautifulSoup(res.content, 'html.parser')
+		self.soup = BeautifulSoup(res.content, 'html.parser')
+		self.query = res.url[len(domain):]
-	spread_writes(soup)
+		self.spread_writes()
-def spread_writes(page):
+	def spread_writes(self):
-	elems = ["#breadcrumb ul.cf li:nth-of-type(3)", "#breadcrumb ul.cf li:nth-of-type(4)",
+		elems = ["#breadcrumb ul.cf li:nth-of-type(3)", "#breadcrumb ul.cf li:nth-of-type(4)",
-			'.review_review_text', '.review_info', ".product_rep"]
+				'.review_review_text', '.review_info', ".product_rep"]
-	if page.find('li', string='レビューの投稿はありません'):
+		if self.soup.find('li', string='レビューの投稿はありません'):
-		return
+			return
-	else:
+		else:
-		elements = [page.select(e) for e in elems]
+			elements = [self.soup.select(e) for e in elems]
-		item_name1 = elements[0][0].string
+			area = elements[0][0].string
-		item_name2 = elements[1][0].string
+			item = elements[1][0].string
-		postdates = elements[3]
+			postdates = elements[3]
-		comments = elements[2]
+			comments = elements[2]
-		reviews = elements[4]
+			reviews = elements[4]
+			cnt = 1
-		for pd, cmt, rv in zip(postdates, comments, reviews):
+			for pd, cmt, rv in tqdm(zip(postdates, comments, reviews), total=len(postdates), desc=f'id{self.pageid} page{self.pagenum} writing', leave=False):
-			rv = rv.i["class"][0].replace('rep_','').replace('_','.')
+				rv = rv.i["class"][0].replace('rep_','').replace('_','.')
-			datas = [item_name1, item_name2, pd.string, cmt.string, rv]
+				datas = [area, item, pd.text, cmt.text, rv]
-			worksheet.append_row(datas)
+				worksheet.append_row(datas)
+				time.sleep(0.8)
+		if self.soup.find('a', string='次へ').get('href') != self.query:
+			self.pagenum += 1
+			self.pagedata_create()
-for page in range(91610, 91620):
+for i in range(73086, 73099):
-	sample(page)
-	time.sleep(1)
+	main = Main(i)
+	main.pagedata_create()
+	print(f'{i} Done!')
+print('Finished!')
 ```

追記

2020/08/13 04:25

投稿

nto

スコア1438

answer CHANGED Viewed

@@ -5,4 +5,56 @@
 ```python
 wks = gc.open_by_key(SPREADSHEET_KEY).sheet1
+```
+### 追記
+ある程度を纏めました。
+以下でご所望の形でスプレッドシートに追記していく事が出来ると思います。
+他に質問をされいてた最終行の追加ですが`append_row()`で最終行の次の行に書き込みをする事が出来ます。
+```python
+import requests
+from bs4 import BeautifulSoup
+from oauth2client.service_account import ServiceAccountCredentials
+import gspread
+import time
+scope = ['https://spreadsheets.google.com/feeds',
+		'https://www.googleapis.com/auth/drive']
+credentials = ServiceAccountCredentials.from_json_keyfile_name('ファイル名.json', scope)
+gc = gspread.authorize(credentials)
+SPREADSHEET_KEY = 'スプレッドシートキー'
+worksheet = gc.open_by_key(SPREADSHEET_KEY).sheet1
+def sample(pageid):
+	url = 'https://furunavi.jp/review_list.aspx?pid={}'.format(pageid)
+	res = requests.get(url)
+	soup = BeautifulSoup(res.content, 'html.parser')
+	spread_writes(soup)
+def spread_writes(page):
+	elems = ["#breadcrumb ul.cf li:nth-of-type(3)", "#breadcrumb ul.cf li:nth-of-type(4)",
+			'.review_review_text', '.review_info', ".product_rep"]
+	if page.find('li', string='レビューの投稿はありません'):
+		return
+	else:
+		elements = [page.select(e) for e in elems]
+		item_name1 = elements[0][0].string
+		item_name2 = elements[1][0].string
+		postdates = elements[3]
+		comments = elements[2]
+		reviews = elements[4]
+		for pd, cmt, rv in zip(postdates, comments, reviews):
+			rv = rv.i["class"][0].replace('rep_','').replace('_','.')
+			datas = [item_name1, item_name2, pd.string, cmt.string, rv]
+			worksheet.append_row(datas)
+for page in range(91610, 91620):
+	sample(page)
+	time.sleep(1)
 ```