回答編集履歴

追記

2019/11/06 04:53

投稿

shirai

スコア1290

answer CHANGED Viewed

@@ -47,4 +47,59 @@
 ---
 これでdfに入れてみてください。
-[参考サイト](https://deepage.net/features/pandas-dataframe.html)
+[参考サイト](https://deepage.net/features/pandas-dataframe.html)
+# コメントを受けて追記
+では直接URLで指定してみましょう。
+URLを開いたあと次のページへを一回クリックすると
+URLの最後に?pn=2とついたのがわかると思います。
+これがページ番号を決めているようですね。
+?pn=1でも最初のページと同じページが出てきますが、
+全部で6ページしかないので、
+?pn=7としてやると、検索結果がない旨を示す
+赤い枠が出てくると思います。
+この赤い枠が出てきたら読み込み終了としてやりましょう。
+```python
+# 空の辞書を宣言
+university = {}
+# ページカウンタ
+page_num = 0
+# 最初のページのURLを取得
+page_url = driver.current_url + '?pn='
+while True:
+    # 最終ページかどうか判定
+    if len(driver.find_elements_by_class_name('dataNone')) > 0
+        break
+    # ページ遷移
+    page_num += 1
+    driver.get(page_url + str(page_num))
+    time.sleep(5)
+    for university_box in driver.find_elements_by_class_name('gpack'):
+        # まぎれを削除
+        if not '__shi_m_gakubu_casette_override_bdtn' in university_box.get_attribute('class'):
+            # 大学名を取得
+            university_name = university_box.find_element_by_tag_name('h2').text
+            # 学科名を取得
+            subjects = set()
+            for h4_tag in university_box.find_elements_by_tag_name('h4'):
+                subjects.add(h4_tag.text)
+            # 大学名と学科のペアを辞書型に追加
+            university[university_name] = subjects
+# ここからpandas処理
+```