質問編集履歴

タイトルを変更しました

2019/07/02 07:25

投稿

nasu0922

スコア17

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- WEBスクレイピング　beautifulsoup4　全情報が取得~~できずにループが抜け~~る問題
1	+ WEBスクレイピング　beautifulsoup4　ページを変遷し情報取得するもページを残し終わってしまう

body CHANGED Viewed

File without changes

実現したいこと、問題点等わかりやすく修正しました。また、ソースコードも余計なものは省きました

2019/07/02 07:25

投稿

nasu0922

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,66 +1,34 @@
 ### 前提・実現したいこと
-DMMぱちタウンからスロットの遊技機情報をWEBスクレイピングで取得し、CSV出力をしようとソースコードを作成しております。
+DMMぱちタウンからスロットの遊技機情報をWEBスクレイピングで取得したい。
-■実現したいこと
-スロットの全機種の情報取得(メーカーID、メーカ名、機種ID、機種名～機種概要)
+→スロットの全機種の情報取得(メーカーID、メーカ名、機種ID、機種名～機種概要)
-CSVファイルに保存
-■できていること
-機種情報の取得～CSVファイル保存まで。
+<取得イメージ>
-ただし、400機種分までしか取得できていないです。
-■解決したいこと
-スロット全機種の情報取得～CSVファイル保存までです。エラーが出ていませんが400機種で処理が終わってしまいます。
+1.3491:https://p-town.dmm.com/machines/3491
+[['3491', 'タマどき！', '4', 'JPS', '97.2%〜105.6%', '2019/10上旬予定', 'コンサートホールグループでのみ打つことができるオリジナルパチスロが、この『タマどき！』。擬似ボーナスを搭載したAT機となっており、リール左右の花が
-ループ処理がうまくいってないのでしょうか。
+光ればボーナス確定だ。ボーナス後の32G間はボーナスの引き戻しに期待でき、最大ループ率は約90%と大量出玉への期待が膨らむ仕様となっている。花の光り方で滞在モードを示唆しているので、ここにも注目しておこう。', '']]･･･以下続く
-ご協力お願いいたします。
+###できていること
+上記イメージ通り、スロット機種情報の取得はできています。
+###できていないこと
+ループはできていますが、400機種目（20ページ目の最後の機種）で終わってしまいます。
-### 発生している問題・エラーメッセージ
+### 実現したいこと
+全ページを横断し、スロット全機種の情報を取得したい。
 エラーも特に出ていませんが、400機種を取得後にループを抜けて処理が終わってしまい、対応策が見つからず苦慮しております。
-```
-```
-### 該当のソースコード
+### 該当のソースコード（余計なものは省きました）
 ```python3
 import requests
-import logging
 import random
 import time
 import re
-import csv
 from bs4 import BeautifulSoup
-from os import chdir, path
-from datetime import datetime, timedelta, timezone
 if __name__ == "__main__":
-    # タイムゾーンの生成
-    JST = timezone(timedelta(hours=+9), 'JST')
-    # カレントディレクトリをスクリプトパスに変更
-    chdir(path.dirname(__file__))
-    # ベースとなる出力ファイル名を定義
-    out_file_base = path.splitext(path.basename(__file__))[0]
-    out_file_base = out_file_base + '_{0:%Y%m%d}_{0:%H%M%S}'.format(datetime.now(JST))
-    # ログファイル名を定義
-    log_file_name = path.splitext(path.basename(__file__))[0] + '_log'
-    log_file_name = log_file_name + '_{0:%Y%m%d}'.format(datetime.now(JST)) + '.log'
-    # フォーマットを定義
-    formatter = '%(asctime)s : %(levelname)s : %(message)s'
-    # ログレベルを DEBUG に変更
-    #logging.basicConfig(level=logging.DEBUG)
-    logging.basicConfig(format=formatter, filename=log_file_name, level=logging.INFO)
-    #logging.basicConfig(level=logging.DEBUG, format=formatter)
-    # User-Agent をIE11に偽装する
-    headers = {
-        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
-    }
     #requestsを使って、webから取得
     base_url = 'https://p-town.dmm.com/machines'
     target_url = '/slot'
-    r = requests.get(base_url + target_url, headers=headers)
+    r = requests.get(base_url + target_url)
     soup = BeautifulSoup(r.text, 'lxml')
     # データカラム定義
@@ -69,10 +37,8 @@
     csv_list = []
     #機種IDループ
     for link_ in soup.find_all('a', class_='link', href=re.compile(r'/machines/' + '\d+')):
-        #csv_list = []
         machine_url = link_.attrs.get('href')
         machine_id = machine_url.rsplit('/', 1)[1]
-        logging.info('%s %s', '[' + machine_id + ']:', base_url + '/' + machine_id)
         selector = 'body > div.o-layout > div > div > main > section li'
         nextpage = True
         while nextpage:
@@ -94,10 +60,8 @@
                     machine_id = target_url.rsplit('/', 1)[1]
                     machine_list[0] = machine_id
                     time.sleep(random.randint(1, 3))   #スリープ(1秒～3秒)
-                    r2 = requests.get(base_url + '/' + machine_id, headers=headers)
+                    r2 = requests.get(base_url + '/' + machine_id)
-                    get_date = datetime.now(JST)
                     soup2 = BeautifulSoup(r2.text, 'lxml')
-                    logging.info('%s %s', str(num) + '[' + machine_id + ']:', base_url + '/' + machine_id)
                     print(str(num)+ '.'+ machine_id + ':' + base_url + '/' + machine_id)
                     #機種名取得
                     for title in soup2.select('h1[class="title"]'):
@@ -116,7 +80,6 @@
                                     makers = -1
                                 machine_list[2] = makers
                             machine_list[col_list.index(th_)] = td_
-                        machine_list[col_list.index('取得日時')] = get_date.strftime('%Y-%m-%dT%H:%M:%S%z')
                         csv_list.append(machine_list)
                         #print(csv_list)
                 # 次ページ読込、なければループ終了
@@ -124,23 +87,15 @@
                     if pages_.text == '>':
                         if pages_.next.attrs.get('href') is not None:
                             target_url = pages_.next.attrs.get('href')
-                            r = requests.get(target_url, headers=headers)
+                            r = requests.get(target_url)
                             soup = BeautifulSoup(r.text, 'lxml')
                         else:
                             nextpage = False
                         break
-    # CSVファイル出力
-    csv_file = out_file_base + '_' + '.csv'
-    csvFields = col_list
-    with open(csv_file, 'w', newline='', errors='replace', encoding='sjis') as f:
-        writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)
-        writer.writerow(csvFields)
-        writer.writerows(csv_list)
 ```
 ### 試したこと
 スロット機種情報の20ページ目に何か原因があると思い、20ページ目から情報を取得したところ、特に問題なくループしたので
 ページそのものに何かあるわけではなさそうです。
 ■参考　20ページ目URL

2019/07/02 07:20

投稿

nasu0922

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,17 @@
 ### 前提・実現したいこと
 DMMぱちタウンからスロットの遊技機情報をWEBスクレイピングで取得し、CSV出力をしようとソースコードを作成しております。
+■実現したいこと
+スロットの全機種の情報取得(メーカーID、メーカ名、機種ID、機種名～機種概要)
+CSVファイルに保存
+■できていること
+機種情報の取得～CSVファイル保存まで。
+ただし、400機種分までしか取得できていないです。
+■解決したいこと
+スロット全機種の情報取得～CSVファイル保存までです。エラーが出ていませんが400機種で処理が終わってしまいます。
+ループ処理がうまくいってないのでしょうか。
+ご協力お願いいたします。
 ### 発生している問題・エラーメッセージ
 エラーも特に出ていませんが、400機種を取得後にループを抜けて処理が終わってしまい、対応策が見つからず苦慮しております。
 ```

誤字を修正いたしました。

2019/06/29 04:04

投稿

nasu0922

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,5 @@
 ### 前提・実現したいこと
-DMMぱちタウンからスロットの遊技機情報をWEBスクレイピングで取得し、CSV出力をしようろソースコードを作成しております。
+DMMぱちタウンからスロットの遊技機情報をWEBスクレイピングで取得し、CSV出力をしようとソースコードを作成しております。
 ### 発生している問題・エラーメッセージ
 エラーも特に出ていませんが、400機種を取得後にループを抜けて処理が終わってしまい、対応策が見つからず苦慮しております。
 ```