Pythonでスクレイピングを修行中です。
パラメータが付与されるURLのスクレイピングはそのURLをベースに作りこめばどうにかなるのですが、JsでURLが見えない?サイトのページネーション、詳細ページへのアクセス方法はあれば教えてください。
例)
https://job.mynavi.jp/20/pc/search/query.html?HR:12/func=PCTopQuickSearch
から次のページ進むと
パラメータ付きのURLではなくなります。
https://job.mynavi.jp/20/pc/corpinfo/searchCorpListByGenCond/doNextPage
(※リンク張っても遷移できませんのでリンクは貼りません。)
検索・ページネーションで良くみるのが
?search=1
?page=1
などです・・・
この場合で調べたこと
・各エリアにユニークな値が振られているはずなのでそれを探す
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答4件
0
ベストアンサー
このサイト相手にスクレイピングするツールを作るつもりなら
URLで直に指定しようとするのはナンセンスです。
逐一クリックするのが無難です。
情報が少ないですが「GUIで必要な条件を入力して出てくる検索結果を取得するツール」を
作ろうとしている認識であっているでしょうか。
phpでGUIを作り、シェルを叩かせてpythonを実行するというのが王道の形になると思います。(別にphpじゃなくてなんでもいいですが
例えばphpによって叩かれるシェルはこんなイメージで
bash
1python search.py '{"url":"https://hogehoge.jp","login_id":"hoge","login_pass":"fuga","is_maker":True,"is_syosya":False,"is_ryutsu_kouri":False ..... }
それを受けるpython(search.py)はこんな感じなると思います。
python
1import sys 2import json 3from time import sleep 4# Selenium関連import略 5 6def main_func(info): 7 8 # Selenium初期設定略 9 10 # ログイン 11 driver.get(info.get(url)) 12 driver.find_element_by_id('login').send_keys(info.get(login_id)) 13 driver.find_element_by_id('pass').send_keys(info.get(login_pass)) 14 driver.find_element_by_id('submit').click() 15 16 # 検索ページに移動 17 driver.find_element_by_link_text('検索ページ').click() 18 19 # メーカーのチェックボックスにチェックを入れる 20 if info.get(is_maker): 21 driver.find_element_by_id('industryGroupInfoArray_1').click() 22 23 # 商社のチェックボックスにチェックを入れる 24 if info.get(is_syousya): 25 driver.find_element_by_id('industryGroupInfoArray_2').click() 26 27 # 流通・小売のチェックボックスにチェックを入れる 28 if info.get(is_ryutsu_kouri): 29 driver.find_element_by_id('industryGroupInfoArray_3').click() 30 31 # 中略 32 33 # 検索ボタンをクリックする 34 driver.find_element_by_id('srchNarrowDownButton').click() 35 36 # 5秒待機 37 sleep(5) 38 39 while True: 40 41 # 検索結果を取得する 42 for coup in driver.find_elements_by_class_name('boxSearchresultEach'): 43 44 # 会社名 45 print(coup.find_element_by_tag_name('h3').text) 46 47 # アイコン 48 for icon in coup.find_elements_by_class_name('icon'): 49 print(icon.text) 50 51 # 会社のキャッチコピー 52 print(coup.find_element_by_tag_name('h4').text) 53 54 # 説明会、セミナーなどの情報 55 print(coup.find_element_by_class_name('announceBox01').text) 56 57 # 業種 58 print(coup.find_elements_by_class_name('linkCategory')[0].text) 59 60 # 本社や従業員などの情報 61 print(coup.find_elements_by_class_name('linkCategory')[1].text) 62 63 # 次のページへボタンをクリック 64 try: 65 driver.find_element_by_id('upperNextPage').click() 66 sleep(5) 67 except NoSuchElementException: 68 # 次のページへボタンが存在しない、つまり、最終ページまで読み切ったのでプログラム終了 69 driver.quit() 70 exit() 71 72if __name__=='__main__': 73 main_func(json.loads(sys.argv[1]))
マイナビ以外の就活サイトも対象にするつもりなら
共通化できそうな部分だけ集めた親クラスを作っておいて、
マイナビクラスやリクナビクラスをにそれを継承させ、
それぞれの子クラスに対して実行用のファイルを別途作る
MVCモデルを意識すべきだと思います。
少し辛辣ですが、質問力や技術力から察するに
ツールを完成させるのは相当な努力が必要かと思われます。
あなたがどのような状況下にあるのかは分からないですが、
どうしても完成させたいのなら
プログラミングに限らず勉強を積み重ねてください。
投稿2019/10/09 09:28
総合スコア1290
0
投稿2019/10/09 07:09
総合スコア99
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
0
HTTPとPOSTとGET
https://qiita.com/Sekky0905/items/dff3d0da059d6f5bfabf
さらに複雑なPOSTリクエスト
https://requests-docs-ja.readthedocs.io/en/latest/user/quickstart/
を勉強してください
投稿2019/10/09 02:30
総合スコア1286
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/09 15:44