Beautiful Soupを使ったスクレイピングについて

前提・実現したいこと

下記ソースとなっているページから、Beautiful Soupを使って「売上高」「営業益」を抜き出したいと考えています。

source
1https://kabutan.jp/stock/finance?code=3182
2
3<div>
4<div class="cap1gyousekishuusei fin_menu">
5<div class="title1">3ヵ月決算【実績】</div>
6<ul>
7<li class="fin_q_t1"><h3><a href="#">業績推移</a></h3></li>
8<li class="fin_q_t2 new"><h3><a href="#"><span>New!<br></span>成長性</a></h3></li>
9</ul>
10</div>
11<div class="cap2 cap2s"><img src="/images/finance/kessan_s_bar_5Q_1Q.jpg" /></div>
12</div>
13
14<div class="fin_q_t0_d fin_q_t1_d">
15<table>
16<thead>
17<tr>
18<th scope="col" class="fb_01">決算期</th>
19<th scope="col" class="fb_02 mizu">売上高</th>
20<th scope="col" class="fb_02 mizu">営業益</th>
21<th scope="col" class="fb_02">経常益</th>
22<th scope="col" class="fb_02">最終益</th>
23<th scope="col" class="fb_03">修正1株益</th>
24<th scope="col" class="fb_03 mizu">売上営業<br />損益率</th>
25<th scope="col" class="fb_04">発表日</th>
26</tr>
27</thead>
28<tbody>
29<tr><td colspan="8" class="oc_btn1"><a href="#" id="oc_b1_q_t1"></a></td></tr>
30<tr  >
31<th scope="row"><span class="kubun1">連&nbsp;　&nbsp;</span>17.07-09&nbsp;&nbsp;</th>
32<td>9,333</td>
33<td>96</td>
34<td>103</td>
35<td>21</td>
36<td>0.7</td>
37<td>1.0</td>
38<td>17/11/13</td>
39</tr>

困っていること、及び該当のソースコード

Python
1from urllib import request
2from bs4 import BeautifulSoup
3
4# get html 
5code = '3182'
6url = 'https://kabutan.jp/stock/finance?code=' + code
7html = request.urlopen(url)
8
9# Beautiful soup
10soup = BeautifulSoup(html, 'html.parser')
11
12# extract rows
13table = soup.findAll('table',{'class':'fin_q_t0_d fin_q_t1_d'})[0]
14rows = table.findAll('td')

としたところで、以下のようなエラーが出てしまいました。

Python
1----> table = soup.findAll('table',{'class':'fin_q_t0_d fin_q_t1_d'})[0]
2IndexError: list index out of range

まだ理解が浅く、どのように対処したらエラーを解消してデータ取得ができるか悩んでいますので、アドバイスいただけると助かります。よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

fin_q_t0_d fin_q_t1_dが設定されてるのはtableタグじゃなくてdivタグっぽいですよ

投稿2019/09/09 07:08

shirokuma4690

総合スコア154

qsuke

2019/09/09 08:14

ありがとうございます！初歩的なミスでしたね…苦笑 tableのところをdivとしたらエラーは解消できました。ここまではできたのですが、この先どうしたらいいかも手詰まりになっています。。もしよろしければ、どうするとうまく「売上高」「営業益」を抜き出せるか、ご教授いただけますと幸いです。

shirokuma4690

2019/09/10 00:38

rowsでtdの内容が配列で参照できるので rows[1].stringみたいな感じでとれますよ

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

Beautiful Soupを使ったスクレイピングについて

前提・実現したいこと

困っていること、及び該当のソースコード

関連した質問