🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

4回答

749閲覧

Pythonでのスクレイピングに関して

Yeeeee

総合スコア18

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/10/09 02:22

Pythonでスクレイピングを修行中です。

パラメータが付与されるURLのスクレイピングはそのURLをベースに作りこめばどうにかなるのですが、JsでURLが見えない?サイトのページネーション、詳細ページへのアクセス方法はあれば教えてください。

例)
https://job.mynavi.jp/20/pc/search/query.html?HR:12/func=PCTopQuickSearch

から次のページ進むと

パラメータ付きのURLではなくなります。
https://job.mynavi.jp/20/pc/corpinfo/searchCorpListByGenCond/doNextPage
(※リンク張っても遷移できませんのでリンクは貼りません。)

検索・ページネーションで良くみるのが
?search=1
?page=1
などです・・・

この場合で調べたこと
・各エリアにユニークな値が振られているはずなのでそれを探す

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ベストアンサー

このサイト相手にスクレイピングするツールを作るつもりなら
URLで直に指定しようとするのはナンセンスです。
逐一クリックするのが無難です。

情報が少ないですが「GUIで必要な条件を入力して出てくる検索結果を取得するツール」を
作ろうとしている認識であっているでしょうか。

phpでGUIを作り、シェルを叩かせてpythonを実行するというのが王道の形になると思います。(別にphpじゃなくてなんでもいいですが

例えばphpによって叩かれるシェルはこんなイメージで

bash

1python search.py '{"url":"https://hogehoge.jp","login_id":"hoge","login_pass":"fuga","is_maker":True,"is_syosya":False,"is_ryutsu_kouri":False ..... }

それを受けるpython(search.py)はこんな感じなると思います。

python

1import sys 2import json 3from time import sleep 4# Selenium関連import略 5 6def main_func(info): 7 8 # Selenium初期設定略 9 10 # ログイン 11 driver.get(info.get(url)) 12 driver.find_element_by_id('login').send_keys(info.get(login_id)) 13 driver.find_element_by_id('pass').send_keys(info.get(login_pass)) 14 driver.find_element_by_id('submit').click() 15 16 # 検索ページに移動 17 driver.find_element_by_link_text('検索ページ').click() 18 19 # メーカーのチェックボックスにチェックを入れる 20 if info.get(is_maker): 21 driver.find_element_by_id('industryGroupInfoArray_1').click() 22 23 # 商社のチェックボックスにチェックを入れる 24 if info.get(is_syousya): 25 driver.find_element_by_id('industryGroupInfoArray_2').click() 26 27 # 流通・小売のチェックボックスにチェックを入れる 28 if info.get(is_ryutsu_kouri): 29 driver.find_element_by_id('industryGroupInfoArray_3').click() 30 31 # 中略 32 33 # 検索ボタンをクリックする 34 driver.find_element_by_id('srchNarrowDownButton').click() 35 36 # 5秒待機 37 sleep(5) 38 39 while True: 40 41 # 検索結果を取得する 42 for coup in driver.find_elements_by_class_name('boxSearchresultEach'): 43 44 # 会社名 45 print(coup.find_element_by_tag_name('h3').text) 46 47 # アイコン 48 for icon in coup.find_elements_by_class_name('icon'): 49 print(icon.text) 50 51 # 会社のキャッチコピー 52 print(coup.find_element_by_tag_name('h4').text) 53 54 # 説明会、セミナーなどの情報 55 print(coup.find_element_by_class_name('announceBox01').text) 56 57 # 業種 58 print(coup.find_elements_by_class_name('linkCategory')[0].text) 59 60 # 本社や従業員などの情報 61 print(coup.find_elements_by_class_name('linkCategory')[1].text) 62 63 # 次のページへボタンをクリック 64 try: 65 driver.find_element_by_id('upperNextPage').click() 66 sleep(5) 67 except NoSuchElementException: 68 # 次のページへボタンが存在しない、つまり、最終ページまで読み切ったのでプログラム終了 69 driver.quit() 70 exit() 71 72if __name__=='__main__': 73 main_func(json.loads(sys.argv[1]))

マイナビ以外の就活サイトも対象にするつもりなら
共通化できそうな部分だけ集めた親クラスを作っておいて、
マイナビクラスやリクナビクラスをにそれを継承させ、
それぞれの子クラスに対して実行用のファイルを別途作る
MVCモデルを意識すべきだと思います。

少し辛辣ですが、質問力や技術力から察するに
ツールを完成させるのは相当な努力が必要かと思われます。
あなたがどのような状況下にあるのかは分からないですが、
どうしても完成させたいのなら
プログラミングに限らず勉強を積み重ねてください。

投稿2019/10/09 09:28

shirai

総合スコア1290

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yeeeee

2019/10/09 15:44

ありがとうございます。 就活サイトがメインではないのですが、URLが変わらないサイトがメインになります。 ありがとうございます。
guest

0

提供されたURLをScrapeStormに入力してうまくスクレイピングできました。
ScrapeStormを一度使用していかがでしょうか。イメージ説明

投稿2019/10/09 07:09

ScrapeStorm.jp

総合スコア99

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yeeeee

2019/10/09 07:35

ありがとうございます。 一応、ゴールとしては、ツール開発が目的なので・・・ 参考にさせてもらいます。
guest

0

ブラウザの開発者ツールなどで実際に操作した際のリクエスト、レスポンスを参照し、そのURLをベースに頑張って作りこめばどうにかなります。

投稿2019/10/09 02:30

Y.H.

総合スコア7918

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yeeeee

2019/10/09 07:36

ありがとうございます。
guest

0

HTTPとPOSTとGET
https://qiita.com/Sekky0905/items/dff3d0da059d6f5bfabf

さらに複雑なPOSTリクエスト
https://requests-docs-ja.readthedocs.io/en/latest/user/quickstart/

を勉強してください

投稿2019/10/09 02:30

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yeeeee

2019/10/09 07:36

ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問