Python　Web上のテーブルからtdの値を取得したい

Question

### 前提 Pythonの初心者で勉強中であるため質問の仕方がおかしかったら申し訳ございません。本を見ながら試してみたのですが、エラーが出てこれ以上進めることができない状態です。 ### 実現したいこと Web上にある次のようなテーブルから「年月」「売上」「客数」を取得し、最終的にCSVにしたいと考えています。 |年月|売上|単価|客数| |:--|:--:|--:|--:| 2022年1月|520,000|5,200|100| 2022年2月|600,000|5,000|120| 2022年3月|663,000|5,100|130| 2022年4月|504,000|6,300|80| 2022年5月|638,000|5,800|110| ```HTML 年月売上客数 2022年1月 520,000 5,200 100 2022年2月 600,000円 5,000 9,350 120 ``` ### 完成イメージ ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-10-13/11cbb559-d268-4893-b9b2-f4f856c4caa6.jpeg) ### 分からないこと ①"年月"の列がで、取得の仕方が分かりません。 ②とりあえずの値だけ取得しようとしたら下部に記載のエラーが出ます。 ### 試したこと ```Python #空リストの作成 vals1 = []#売上 vals2 = []#客数 #テーブルのボディ部分を選択する table = driver.find_element_by_tag_name('tbody') #ボディ部分からtrタグをすべて取得 elems = table.find_elements_by_tag_name('tr') #trタグの数だけループしtdの値を取得 for elem in elems: val1 = elem.find_elements_by_tag_name('td')[0].text val2 = elem.find_elements_by_tag_name('td')[2].text #取得した値をvalsリストに順番に追加 vals1.append(vals1) vals2.append(vals2) #CSV作成 import pandas as pd df=pd.DataFrame({'売上':vals1,'客数':vals1}) df.to_csv("集計.csv",encoding="shift_jis") ``` ### 発生している問題・エラーメッセージ ``` IndexError: list index out of range ``` インデックスが範囲外とのことですが、('td')[0]を[1]や[2]に変えたところでは変わらないです。 ### 該当のソースコード ``` val1 = elem.find_elements_by_tag_name('td')[0].text ``` ### 補足（取得したい情報）これが実際に取得したい対象のテーブルになります。テーブルの左端から「年月」～「再来」の数字を1年分取得したいと思っています。 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-10-14/430b61aa-27a5-470b-b6e0-377322e32b01.jpeg) ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-10-14/80b82c98-d243-4aaa-bbb1-8993418387aa.jpeg)

Accepted Answer

テーブルを選択する部分で、classを使って絞り込む必要があります。
月次売上表が年ごとに分かれているなど、同じクラス名のテーブルが複数ある場合は、上から何番目かも指定する必要があります。

元のコードで
```python
#テーブルのボディ部分を選択する
table = driver.find_element_by_tag_name('tbody')
```
のところを
```python
#テーブルのボディ部分を選択する
monthly_table_number = 0  # いくつかある月次売上表のうち該当のものの番号（0始まり順）
tables = driver.find_elements_by_class_name("monthlySalesTable")
table = tables[monthly_table_number].find_element_by_tag_name("tbody")
```
としてください。
該当の表が月次売上表の中で何番目かを数えて、`monthly_table_number`を変更してください。

また、別に1箇所バグがあります。
```python
#取得した値をvalsリストに順番に追加
    vals1.append(vals1)
    vals2.append(vals2)
```
で、appendする右側のvals1, vals2が、本当はval1, val2が正しいです。

これで動くかどうか試してみてください。

Answer

CSV の作成に Pandas を使われていますが、それでしたら Pandas の `read_html()` で HTML テーブルを読み込んでみてもよいかもしれません。

```python
import pandas as pd
import sys

url = 'https://teratail.com/questions/6su8tx7uey56y2'
dfs = pd.read_html(url) # table 要素に id や class が付与されている場合はそれを利用する

cols = ['年月', '売上', '単価', '客数']
scols = {*cols}
dfs = [df for df in dfs if scols == {*df.columns}]
if not dfs:
    print('table not found', file=sys.stderr)
    sys.exit(1)

df = dfs[0][[c for c in cols if c != '単価']]
df.to_csv("集計.csv",encoding="shift_jis",index=False)
```

**集計.csv**

```csv
年月,売上,客数
2022年1月,520000,100
2022年2月,600000,120
2022年3月,663000,130
2022年4月,504000,80
2022年5月,638000,110
```

年月	売上	単価	客数
2022年1月	520,000	5,200	100
2022年2月	600,000	5,000	120
2022年3月	663,000	5,100	130
2022年4月	504,000	6,300	80
2022年5月	638,000	5,800	110

前提

実現したいこと

完成イメージ

分からないこと

試したこと

発生している問題・エラーメッセージ

該当のソースコード

補足（取得したい情報）

関連した質問