URLが遷移しないサイトでのスクレイピング　python

すいません。URL が遷移しないサイトでのpythonでの
スクレイピングについてどうしてもわからなくて質問いたしました。
java scriptでURLを遷移しないようにつくっているようです。

以下のサイトから東京都の大田区の病院名を抜き出したいと考えていたのですが
URLが遷移せず、ソースがどこにあるのかわからないため、どう抜き出していいのかわからず困っております。

＜このサイト＞
リンク内容
 http://www.jda.or.jp/cgi-bin/search2.cgi

＜以下pythonで実行してみましたが、検索の部分が出てくるだけで失敗＞

python
1import requests
2from bs4 import BeautifulSoup
3   
4url = 'http://www.jda.or.jp/cgi-bin/search2.cgi'
5
6headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0"}
7
8response = requests.get(url=url, headers=headers)
9html = response.content
10
11soup = BeautifulSoup(html, "html.parser")
12sp = soup.find_all('h3')
13
14print(sp)
15
16```
17
18以下参考に挑戦したのですが、できませんでした。
19https://teratail.com/questions/164050
20
21誰かわかる方、アドバイスいただけると助かります。

行動規範の内容に同意します

回答2件

ベストアンサー

そのページで東京都大田区を選択した状態で、
Webブラウザの開発者コンソールを開き、
method="post" となっているところを method="get" に改造して　(2ヶ所あります)
検索ボタンを押すと
アドレスバーが以下のようになります:

http://www.jda.or.jp/cgi-bin/search2.cgi?md=3&cmbSearch1=%93%8C%8B%9E%93s&cmbSearch2=%91%E5%93c%8B%E6

おまけ
6. http://0xcc.net/jsescape で、Encoding for the followingsで Shift_JIS を設定した状態で
7. URL欄に上記アドレスを入力してみると
8. Plain Text 欄に http://www.jda.or.jp/cgi-bin/search2.cgi?md=3&cmbSearch1=東京都&cmbSearch2=大田区が出てきます。

投稿2019/10/11 03:09

matobaa

総合スコア2493

tetsujiyamamura

2019/10/11 05:43

ありがとうございます！　本当によくわからなくて困っていました！

行動規範の内容に同意します

JavaScriptで作成された情報を取得したい場合は、JavaScriptを実行可能なツールを使います。

多いのは、「何らかのブラウザ＋Selenium＋Selenium用ライブラリのあるプログラミング言語」でしょうか。
Teratailでの質問だと、Chrome+Selenium+Pythonが多い気がします。

投稿2019/10/11 03:08

otn

総合スコア86295

tetsujiyamamura

2019/10/11 05:45

アドバイスありがとうございます！　普段、あまりスクレイピングしないのでとても参考になります！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

URLが遷移しないサイトでのスクレイピング　python

関連した質問