Pythonでじゃらんの施設名をスクレイピングするも、30件の内14件しか取得できない

1ページにつき30件を表示しているwebページから、スクレイピングして取得した結果を見ると14件しか取得できなくて
困っています。

下記がスクレイピング対象のページです。
https://www.jalan.net/uw/uwp2011/uww2011search.do?actionId=G&keyword=%97%4C%94%6E&dateUndecided=1&stayYear=2021&stayMonth=11&stayDay=08&minPrice=0&maxPrice=999999&distCd=06&rootCd=7712&dispStartIndex=0&activeSort=0&screenId=UWW2011

下記が実装中のコードです。AWSのLambda上で書いています。

import requests
from bs4 import BeautifulSoup
import urllib.parse
import json

def lambda_handler(event,context):
    keyword = event['queryStringParameters']['keyword']
    urlKeyword = urllib.parse.quote(keyword, encoding='shift-jis')
    url = f"https://www.jalan.net/uw/uwp2011/uww2011init.do?keyword={urlKeyword}&dispStartIndex=0"
    r = requests.get(url)
    c = r.content
    soup = BeautifulSoup(c, "lxml", from_encoding="Shift_JIS")
    all=soup.find_all("h2",{"class":"p-searchResultItem__facilityName"})
    print(all)
    facilities=[]
    
    for item in all:
        d={}
        d["facilityName"]=item.text
        facilities.append(d)
 
    return  {
        'statusCode': 200,
        'headers': {
            "Access-Control-Allow-Origin": "*"
        },
        'body': json.dumps(facilities)
    }

print(all)の段階でデータが14件しか取得できていません。

またリクエストで取得しきれていないのかと思い、r = requests.get(url)の直下にtime.sleep(5)を仕込んでみても改善されませんでした。

よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

JavaScriptでHTML取得後に追加されているのではないでしょうか。

requests.getではJavaScript実行機能は無いです。
print(r.text)してみましょう。そこに無いと無理です。

そういうページなのであれば、Selenium等を使って、ブラウザにJavaScriptを実行させます。

#追記
原因は、lxmlパーサーがShift_JISにちゃんと対応してないっぽい事でした。コメント参照。
utf-8に変換してからパースすることで解決。
厳密には、HTMLヘッダのContent-Typeも書き換えてからパースすべきでしょうが、多分そこは見てない。

投稿2021/11/07 10:26

編集2021/11/10 12:07

otn

総合スコア86307

hogemaTV

2021/11/07 10:37

Selenium調査・実装してみます。ありがとうございます。

hogemaTV

2021/11/10 11:18 編集

その後中々時間が取れずまだSeleniumを学習段階ですが、今の私の実装でデータが少なくなってしまう原因箇所はデバッグでわかりました。 ✖　soup = BeautifulSoup(c, "lxml", from_encoding="Shift_JIS") 〇　soup = BeautifulSoup(c, "html.parser", from_encoding="Shift_JIS") ということでした。しかし、html.parserですとスピードが遅くてAPIGatewayの最大タイムアウト29秒以内に終わらないのでやはり提案頂いたSeleniumを試してみたいと思います。

otn

2021/11/10 11:53 編集

Seleniumは遅いですよ。パーサーで結果が違うと言うことは、lxml が Shift_JIS にちゃんと対応していないのでしょうか。下記でどうでしょう？Shift_JIS(CP932) から utf-8 に変換してから処理。 soup = BeautifulSoup(c.decode("CP932"), "lxml") Shift_JISといいつつ、JIS第二水準範囲外の文字を使っているケースも多いので、CP932と書いておくのがいいです。

hogemaTV

2021/11/10 12:01

いけました！！ありがとうございました！！

otn

2021/11/10 12:03

私も勉強になりました。lxmlのドキュメントを調べて正式な仕様（制約事項）なのか調べるところまでする気は起きないですが。

melian

2021/11/10 12:29

html パーサで実行すると30件取れてますね。 >>> soup = BeautifulSoup(c, "html.parser") >>> all=soup.find_all("h2",{"class":"p-searchResultItem__facilityName"}) >>> len(all) 30 from_encoding="Shift_JIS" は指定しなくても問題ないです。

hogemaTV

2021/11/10 12:43 編集

html パーサで30件取れはするのですが、APIGatewayのタイムアウトでひっかかってしまいます(質問の要件にAPIGatewayのことを書いておらず申し訳ないです) ということもあり、otnさんが提案したlxmlでパース前にutf-8に変換でいけました。この質問の答えとしては、30件手に入れることができるhtml パーサももちろん正しいです。

melian

2021/11/10 12:42

そうだったのですね、失礼しました。

行動規範の内容に同意します