Yahooニュースのコメントをスクレイピングしたいです

問題点

Yahooニュースのコメントをスクレイピングしたいです。
現状、Yahoo.co.jpのサイトの中から特定のキーワードを含むものを見つけてそのタイトルとURLを読み取ります。そして、そのURLを更に読み取ってニュースの個別ページに行き、その中からコメントに当たる部分を取ってこようとしています。
しかし、右クリックからの検証で得られたページのソースコードが示す、コメントのhtml構造を取ってこようとしてもうまく値を取ってくることが出来ません。これの原因は何なのでしょうか？

python
1import urllib.request
2from bs4 import BeautifulSoup
3
4def get_yahoo_news():
5    # ヘッドラインニュースのタイトル格納用リスト
6    news_data = []
7
8    # urlの指定
9    url = 'http://www.yahoo.co.jp/'
10
11    # ユーザーエージェントを指定？？
12    ua = ''
13
14    req = urllib.request.Request(url, headers={'User-Agent': ua})
15   
16    #htmlの取得
17    html = urllib.request.urlopen(req)
18
19    # htmlパース
20    soup = BeautifulSoup(html, "html.parser")
21    topicsindex = soup.find('div', attrs={'class': 'topicsindex'})
22
23    
24    for li in topicsindex.find_all('li'):
25        a = li.find('a')
26        # 記事タイトルとURLを保存
27        news_data.append([a.contents[0], a.get('href')])
28        
29    return news_data
30
31def main():
32    # Yahooトップのトピック記事タイトルを取得
33    news_data = get_yahoo_news()
34
35    # 取得データの表示
36    
37    carelist = []
38
39    for news in news_data:
40        if "女性" in news[0]:
41            carelist.append(news)
42
43    print(carelist)
44    
45    comment = []
46    
47   
48    for carenews in carelist:
49        
50        url = carenews[1] 
51        ua = ''
52
53        req = urllib.request.Request(url, headers={'User-Agent': ua})
54   
55    #htmlの取得
56        html = urllib.request.urlopen(req)
57
58    # htmlパース
59        soup = BeautifulSoup(html, "html.parser")
60        topicsindex = soup.find("span", attrs={"class":"cmtBody"})
61        
62
63        
64        print(topicsindex)
65        
66        
67
68if __name__ == '__main__':
69    main()
70    
71

特に該当の部分を抜粋すると以下のようになります。

python
1  soup = BeautifulSoup(html, "html.parser")
2  topicsindex = soup.find("span", attrs={"class":"cmtBody"})

行動規範の内容に同意します

回答1件

curlやwgetで http://www.yahoo.co.jp/ を取得してみると、 class="topicsindex" がないようです。
ブラウザのソース表示から見ると存在しているので、もしかすると、Javascriptでセットしているかもしれません。

投稿2019/03/28 14:40

YakumoSaki

総合スコア2027

mark_Hamil

2019/03/28 15:45

この場合、スクレイピングは難しいということでしょうか？

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Yahooニュースのコメントをスクレイピングしたいです

関連した質問