Beautifulsoupでのスクレイピングでtableから値がとれない

Question

### 前提・実現したいこと後述の、とあるサイトの商品別の販売集計表をスクレイピングしたいのですが、値がとれずに困っています。 #### 環境 - Python 3.9.0 - Windows 10 Pro - google chrome - Beautifulsoup - requests - selenium - chrome ドライバ（google chrome以下のものは、いずれも最新版です） ### 発生している問題下記のようなテーブルの「最高値（円）」「平均値（円）」「最安値（円）」「実勢価格（円）」の各値がとれません。 ※ 掲載にあたり、一部内容を伏せるために項目名や項目値を加工しております。ご容赦ください。 **テーブルの構造** ・実際には、商品名＝商品１とその直下の「a00001」（商品コード）は、同じ行で定義されています。（下記HTMLソースをご参照ください。）・また、商品10件ごとにヘッダー項目が挿入されており、これが１ページあたり５組もある大きなテーブルです。・ページ内に``タグで囲まれた箇所は、このテーブルのみです。・さらに、このテーブルの内容（明細）は、全体でおおよそ100ページ分ほどあります。 |商品名|最高値（円）|平均値（円）|最安値（円）|実勢価格（円）|販売開始日|販売数（単位）|累積販売金額（円）| |:---|---:|---:|---:|---:|---:|---:|---:| |商品１|90.0|91.5|93.0|92.0|1999/1/19|1,565,432|173,452,222,567| |a00001|(12/7)||(12/8)|(12/13)||(枚)|(円)| |商品２|80.0|81.5|83.0|82.0|1999/7/21|1,868,432|423,452,288,590| |a00002|(12/7)|(12/13)|(12/8)|(12/13)||(枚)|(円)| |||||||| |（...略...）||||||| |||||||| |商品名|最高値（円）|平均値（円）|最安値（円）|実勢価格（円）|販売開始日|販売数（単位）|累積販売金額（円）| |商品１１|90.0|91.5|93.0|92.0|1999/1/19|1,565,432|173,452,222,567| |a00011|(12/7)|(12/13)|(12/8)|(12/13)||(枚)|(円)| |||||||| |（...略...）||||||| ```html (...略...) (...略...)

　　（...略...）

商品名	最高値（円）	平均値（円）	最安値（円）	実勢価格（円）	販売開始日	販売数（単位）	累積販売金額（円）
商品１a00001	90.0(12/7)	91.5(12/13)	93.0(12/8)	92.0(12/13)	1999/1/19	1,565,432(kL)	173,452,222,567(円)
商品２a00002	80.0(12/7)	81.5(12/13)	83.0(12/8)	82.0(12/13)	1999/7/21	1,868,432(kL)	423,452,288,590(円)

(...略...) ``` ### 該当のソースコード ### 試したことまずは、1ページ目の1行目だけでもとろうと思い、以下のようなコーディングをしました。商品名と商品コードはとれましたが、最高値から累積販売金額までは、該当するタグが「」で同一です。 `td`タグに対して、２カラム目（「平均値（円）」）以降は`next_sibling`を指定してみましたが、「最高値（円）」「平均値（円）」「最安値（円）」「実勢価格（円）」のうち、最初の「最高値（円）」しかとれませんでした。どのように指定すれば、「平均値（円）」「最安値（円）」「実勢価格（円）」の金額もとることが出来るでしょうか。ご教示ください。 ※上記４項目の日付については取得不要です。 ```python import sys import csv import datetime import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options from time import sleep csv_date = datetime.datetime.today().strftime("%Y%m%d") csv_file_name = "stock_week_price_" + csv_date + ".csv" f = open(csv_file_name, "w", encoding="CP932", errors="ignore") writer = csv.writer(f, lineterminator=" ") csv_header = ["商品コード","商品名","最高値","平均値","最安値","実勢価格"] writer.writerow(csv_header) options = Options() driver = webdriver.Chrome('C:/Program Files/chromedriver_win32/chromedriver', options=options) url = "https://www.exzample.com/historical/?p=1" driver.get(url) res = requests.get(url) sleep(1) soup = BeautifulSoup(res.content, "lxml") soup.find('table') table = soup.find('table') csvlist = [] table.find('a').text a = table.find('a').text stock_code = a[-6:] stock_name = a[:-6] csvlist.append(item_code) csvlist.append(item_name) table.find('td').text td1 = table.find('td').text high_price = td1.split('(')[0] csvlist.append(high_price) table.td.next_sibling td2 = table.td.next_sibling average_price = td2.split('(')[0] csvlist.append(average_price) table.td.next_sibling td3 = table.td.next_sibling low_price = td3.split('(')[0] csvlist.append(low_price) table.td.next_sibling td4 = table.td.next_sibling actual_price = td4.split('(')[0] csvlist.append(actual_price) writer.writerow(csvlist) f.close() driver.close() sys.exit() ```

Accepted Answer

next_sibling の使い方がおかしいです。
next_sibling はその名の通り、指定要素の次の要素を1つだけ取得します。

td1 = table.find('td').text
td2 = table.td.next_sibling
td3 = table.td.next_sibling
td4 = table.td.next_sibling

これだと、td1以外は全部同じ要素を取得しています。

next_siblings で同じ階層の要素のジェネレータを取得できますので、
こちらを利用する方が便利と思います。

追記
なお、最高値を表す要素 td1 を正しく取得して、
以降を次の様に指定すれば next_sibling でも各要素を取得できると思います。

td2 = td1.next_sibling
td3 = td2.next_sibling
td4 = td3.next_sibling

商品名	最高値（円）	平均値（円）	最安値（円）	実勢価格（円）	販売開始日	販売数（単位）	累積販売金額（円）
商品１	90.0	91.5	93.0	92.0	1999/1/19	1,565,432	173,452,222,567
a00001	(12/7)	(12/8)	(12/13)	(枚)	(円)
商品２	80.0	81.5	83.0	82.0	1999/7/21	1,868,432	423,452,288,590
a00002	(12/7)	(12/13)	(12/8)	(12/13)	(枚)	(円)

（...略...）

商品名	最高値（円）	平均値（円）	最安値（円）	実勢価格（円）	販売開始日	販売数（単位）	累積販売金額（円）
商品１１	90.0	91.5	93.0	92.0	1999/1/19	1,565,432	173,452,222,567
a00011	(12/7)	(12/13)	(12/8)	(12/13)	(枚)	(円)

（...略...）

前提・実現したいこと

環境

発生している問題

該当のソースコード

試したこと

関連した質問