seleniumで取得した情報をpandasでｄataframeに格納したい

Question

下記サイトの場合、大学名と複数ある学科名を取得してdataframeに格納したいと考えています。
https://shingakunet.com/searchList/ksl_daitan/ql_ld010/qm_lc111/qs_v3660/

当該事例に関わらず項目ごとに取得情報の数が合わずdataframeに格納できないことは、
scrapingをする上でよく直面する課題となっています。

```ここに言語を入力
from selenium import webdriver
import pandas as pd
driver = webdriver.Chrome()

driver.get('https://shingakunet.com/searchList/ksl_daitan/ql_ld010/qm_lc111/qs_v3660/')

names = []
div = []

for i in driver.find_elements_by_class_name('__shi_m_heading_primary'):
    names.append(i.text)
for i in driver.find_elements_by_class_name('gakkaSearchScCst__hdg'):
    div.append(i.text)

len(names)
２０
len(div)
４３

df = pd.DataFrame()
df['names'] = names
df['div'] = div
```

divの数に合わせて、nameを取得すれば、datafameにできると思うのですが、
下記ようにしてもnameは同じものを取得してしまいます。

```ここに言語を入力
for i in driver.find_elements_by_class_name('gakkaSearchScCst__hdg'):
    div.append(i.text)
    elem = driver.find_element_by_class_name('__shi_m_heading_primary')
    name.append(elem.text)
```

とても初歩的な質問となりますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

Accepted Answer

大学数と学科数が異なるのでそもそもpythonでの値の持たせ方自体に疑問があります。
辞書型がベストでしょう。
keyは大学名で、valueは学科名を集合型で持たせるといいと思います。

具体的には
```python
university = {'京都美術工芸大学':{'建築学科','ビジュアルデザインコース','インテリア・空間デザインコース'}, '名古屋学芸大学':{'デザイン学科'}}
```
といった具合です。

---
スクレイピングも少し変えましょう
```python

# 空の辞書を宣言
university = {}

while True:

    for university_box in driver.find_elements_by_class_name('gpack'):

        # まぎれを削除
        if not '__shi_m_gakubu_casette_override_bdtn' in university_box.get_attribute('class'):

            # 大学名を取得
            university_name = university_box.find_element_by_tag_name('h2').text

            # 学科名を取得
            subjects = set()
            for h4_tag in university_box.find_elements_by_tag_name('h4'):
                subjects.add(h4_tag.text)

            # 大学名と学科のペアを辞書型に追加
            university[university_name] = subjects

    # 次のページを読みにいく
    try:
        driver.find_element_by_link_text('次のページへ').click()
        time.sleep(10)
    except NoSuchElementException:
        # 全ページ読み終わり
        break

# ここからpandas処理
```

---

これでdfに入れてみてください。
[参考サイト](https://deepage.net/features/pandas-dataframe.html)

# コメントを受けて追記

では直接URLで指定してみましょう。

URLを開いたあと次のページへを一回クリックすると
URLの最後に?pn=2とついたのがわかると思います。
これがページ番号を決めているようですね。

?pn=1でも最初のページと同じページが出てきますが、
全部で6ページしかないので、
?pn=7としてやると、検索結果がない旨を示す
赤い枠が出てくると思います。

この赤い枠が出てきたら読み込み終了としてやりましょう。

```python
# 空の辞書を宣言
university = {}

# ページカウンタ
page_num = 0

# 最初のページのURLを取得
page_url = driver.current_url + '?pn='

while True:

    # 最終ページかどうか判定
    if len(driver.find_elements_by_class_name('dataNone')) > 0
        break

    # ページ遷移
    page_num += 1
    driver.get(page_url + str(page_num))
    time.sleep(5)

    for university_box in driver.find_elements_by_class_name('gpack'):

        # まぎれを削除
        if not '__shi_m_gakubu_casette_override_bdtn' in university_box.get_attribute('class'):

            # 大学名を取得
            university_name = university_box.find_element_by_tag_name('h2').text

            # 学科名を取得
            subjects = set()
            for h4_tag in university_box.find_elements_by_tag_name('h4'):
                subjects.add(h4_tag.text)

            # 大学名と学科のペアを辞書型に追加
            university[university_name] = subjects

# ここからpandas処理
```

コメントを受けて追記

関連した質問