前提・実現したいこと
BeautifulSoupでWall Street JournalのwebsiteからHeadlineを抜き出したいと思っています。
findやcssセレクタを利用してHeadlineの該当するタグを特定しようとしましたが、うまくいかず。
発生している問題・エラーメッセージ
そもそも、タグの特定以前に、BeautifulSoupで取り出したすべてのhtmlデータの中に該当のテキストが入っていないことがわかりました。
該当のソースコード
python
1from bs4 import BeautifulSoup 2import requests 3 4wsj = 'https://www.wsj.com/' 5html = requests.get(wsj) 6soup = BeautifulSoup(html.content, 'html.parser') 7topics =soup.find('div',class_ = '*****') 8#*****にHeadlineを含むclassのタグ名を入れました 9print(topics) 10#結果はどのタグ名でもHeadlineのテキストを抜き出すことができませんでした。 11#CSSセレクタを利用してみましたがやはりうまくいきませんでした。 12 13print(soup) 14#試しにBeautifulSoupで取り出したすべてのhtmlデータをprintしてみたところ、そもそもHeadlineのテキストがどこにも含まれていないことがわかりました。 15
試したこと
Seleniumを利用してみましたが、やはりHeadlineのテキストが見当たりませんでした。
補足情報(FW/ツールのバージョンなど)
Windows10 Home 2004
Python3.7
PyCharm 2020.3.5(Community Edition)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/04/14 14:04
2021/04/14 14:10
2021/04/15 12:57
2021/04/17 07:44 編集
2021/04/18 01:34
2021/04/18 04:41