回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Beautiful Soupに関する質問

Q&A

解決済

2回答

3208閲覧

動的サイトでスクレイピング（href要素）したい

総合スコア11

0グッド

0クリップ

投稿2020/05/18 13:31

0

0

前提・実現したいこと

以下のWebサイトよりニュース記事のURL及びタイトルを取得したいのですが、
どのタグで指定しても空のリストが返ってきてしまいます。

NTT Ltd Newsroom
https://hello.global.ntt/en-us/newsroom

該当のソースコード

python
1from bs4 import BeautifulSoup 
2import urllib.request as req
3
4url = 'https://hello.global.ntt/en-us/newsroom'
5html = req.urlopen(url)
6soup = BeautifulSoup(html,'html.parser')
7
8#以下でリスト取得後、href要素を指定することでURLを取得しようとしました
9soup.find_all('div', class_ 'search-item search-item--list')

補足情報

スクレイピング初心者です。ご教示いただけると幸いです。

行動規範の内容に同意します

回答2件

0

ツールによるスクレイピングはいかがでしょうか？
記事の情報をすばやく抽出できます。
以下の動画が役に立つかもしれないと思います。
News記事の検索結果ページからデータ取集

投稿2020/05/19 01:55

退会済みユーザー

総合スコア0

2020/05/19 12:35

ご紹介ありがとうございます。今回はSeleniumを使い取得することができました。今後の参考にさせていただきます。

行動規範の内容に同意します

0

ベストアンサー

見たところ、記事情報は Javascript で動的にとってきているようなので、urllib.request での取得は無理です。
Selenium を使って、スクレイピングしてください。

Selenium(Python)を使ってWebスクレイピング - Qiita

「selenium python」「selenium スクレイピング」などで調べると解説記事が出てきます。

投稿2020/05/18 13:37

総合スコア21956

2020/05/19 12:35

ご回答ありがとうございました。無事Seleniumを使い取得することができました。お助けいただきありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Beautiful Soupに関する質問

動的サイトでスクレイピング（href要素）したい

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る