Pythonでのスクレイピングに関して

Pythonでスクレイピングを修行中です。

パラメータが付与されるURLのスクレイピングはそのURLをベースに作りこめばどうにかなるのですが、JsでURLが見えない？サイトのページネーション、詳細ページへのアクセス方法はあれば教えてください。

例）
https://job.mynavi.jp/20/pc/search/query.html?HR:12/func=PCTopQuickSearch

から次のページ進むと

パラメータ付きのURLではなくなります。
https://job.mynavi.jp/20/pc/corpinfo/searchCorpListByGenCond/doNextPage
（※リンク張っても遷移できませんのでリンクは貼りません。）

検索・ページネーションで良くみるのが
?search=1
?page=1
などです・・・

この場合で調べたこと
・各エリアにユニークな値が振られているはずなのでそれを探す

行動規範の内容に同意します

回答4件

ベストアンサー

このサイト相手にスクレイピングするツールを作るつもりなら
URLで直に指定しようとするのはナンセンスです。
逐一クリックするのが無難です。

情報が少ないですが「GUIで必要な条件を入力して出てくる検索結果を取得するツール」を
作ろうとしている認識であっているでしょうか。

phpでGUIを作り、シェルを叩かせてpythonを実行するというのが王道の形になると思います。（別にphpじゃなくてなんでもいいですが

例えばphpによって叩かれるシェルはこんなイメージで

bash
1python search.py '{"url":"https://hogehoge.jp","login_id":"hoge","login_pass":"fuga","is_maker":True,"is_syosya":False,"is_ryutsu_kouri":False ..... }

それを受けるpython(search.py)はこんな感じなると思います。

python
1import sys
2import json
3from time import sleep
4# Selenium関連import略
5
6def main_func(info):
7
8    # Selenium初期設定略
9
10    # ログイン
11    driver.get(info.get(url))
12    driver.find_element_by_id('login').send_keys(info.get(login_id))
13    driver.find_element_by_id('pass').send_keys(info.get(login_pass))
14    driver.find_element_by_id('submit').click()
15
16    # 検索ページに移動
17    driver.find_element_by_link_text('検索ページ').click()
18
19    # メーカーのチェックボックスにチェックを入れる
20    if info.get(is_maker):
21        driver.find_element_by_id('industryGroupInfoArray_1').click()
22
23    # 商社のチェックボックスにチェックを入れる
24    if info.get(is_syousya):
25        driver.find_element_by_id('industryGroupInfoArray_2').click()
26
27    # 流通・小売のチェックボックスにチェックを入れる
28    if info.get(is_ryutsu_kouri):
29        driver.find_element_by_id('industryGroupInfoArray_3').click()
30
31    # 中略
32
33    # 検索ボタンをクリックする
34    driver.find_element_by_id('srchNarrowDownButton').click()
35
36    # 5秒待機
37    sleep(5)
38
39    while True:
40
41        # 検索結果を取得する
42        for coup in driver.find_elements_by_class_name('boxSearchresultEach'):
43
44            # 会社名
45            print(coup.find_element_by_tag_name('h3').text)
46
47            # アイコン
48            for icon in coup.find_elements_by_class_name('icon'):
49                print(icon.text)
50
51            # 会社のキャッチコピー
52            print(coup.find_element_by_tag_name('h4').text)
53
54            # 説明会、セミナーなどの情報
55            print(coup.find_element_by_class_name('announceBox01').text)
56
57            # 業種
58            print(coup.find_elements_by_class_name('linkCategory')[0].text)
59
60            # 本社や従業員などの情報
61            print(coup.find_elements_by_class_name('linkCategory')[1].text)
62
63        # 次のページへボタンをクリック
64        try:
65            driver.find_element_by_id('upperNextPage').click()
66            sleep(5)
67        except NoSuchElementException:
68            # 次のページへボタンが存在しない、つまり、最終ページまで読み切ったのでプログラム終了
69            driver.quit()
70            exit()
71
72if __name__=='__main__':
73    main_func(json.loads(sys.argv[1]))