Beautiful Soupを使ったスクレイピングとfor文の活用

前提・実現したいこと

下記ソースとなっているページから、Beautiful Soupを使って「売上高」「営業益」を抜き出したいと考えています。

source
1https://kabutan.jp/stock/finance?code=3182
2
3<div>
4<div class="cap1gyousekishuusei fin_menu">
5<div class="title1">3ヵ月決算【実績】</div>
6<ul>
7<li class="fin_q_t1"><h3><a href="#">業績推移</a></h3></li>
8<li class="fin_q_t2 new"><h3><a href="#"><span>New!<br></span>成長性</a></h3></li>
9</ul>
10</div>
11<div class="cap2 cap2s"><img src="/images/finance/kessan_s_bar_5Q_1Q.jpg" /></div>
12</div>
13
14<div class="fin_q_t0_d fin_q_t1_d">
15<table>
16<thead>
17<tr>
18<th scope="col" class="fb_01">決算期</th>
19<th scope="col" class="fb_02 mizu">売上高</th>
20<th scope="col" class="fb_02 mizu">営業益</th>
21<th scope="col" class="fb_02">経常益</th>
22<th scope="col" class="fb_02">最終益</th>
23<th scope="col" class="fb_03">修正1株益</th>
24<th scope="col" class="fb_03 mizu">売上営業<br />損益率</th>
25<th scope="col" class="fb_04">発表日</th>
26</tr>
27</thead>
28<tbody>
29<tr><td colspan="8" class="oc_btn1"><a href="#" id="oc_b1_q_t1"></a></td></tr>
30<tr  >
31<th scope="row"><span class="kubun1">連&nbsp;　&nbsp;</span>17.07-09&nbsp;&nbsp;</th>
32<td>9,333</td>
33<td>96</td>
34<td>103</td>
35<td>21</td>
36<td>0.7</td>
37<td>1.0</td>
38<td>17/11/13</td>
39</tr>

困っていること、及び該当のソースコード

Python
1from urllib import request
2from bs4 import BeautifulSoup
3
4# get html 
5code = '3182'
6url = 'https://kabutan.jp/stock/finance?code=' + code
7html = request.urlopen(url)
8
9# Beautiful soup
10soup = BeautifulSoup(html, 'html.parser')
11
12# extract rows
13table = soup.findAll('div',{'class':'fin_q_t0_d fin_q_t1_d'})[0]
14rows = table.findAll('td')

と、ここまではできたものの、この先、for文を使うといいのかなと思ったものの、どのようにしたら「売上高」や「営業益」データを取得ができるのか悩んでいます。まだ理解が浅く、質問内容も的確ではないかもしれませんが、アドバイスいただけると助かります。よろしくお願いします。

meg_

2019/09/09 22:14

for文の使い方は理解されていますか？

qsuke

2019/09/09 23:42 編集

理解しているか、いないかの二択で言えば、理解していません。理解できていないので質問させていただいているのですが、何か間違い、勘違いあればご指摘ください。ちなみに、データの集まりからデータを一つずつ取り出す構文だと思い、使おうと思った次第です。また、参考書は読みましたし、それを見返したり、ネットで検索したものの、たぶんいろんなものの複合で応用力が必要なのかと思いますが、それが不足しており、聞ける人もいなくて、参考書等だけでは限界だったのでこちらのサイトを活用させていただきました。こちらのサイトを利用するレベルでもないというのであれば、どういったものを参考にしたらいいのか、どういった勉強したらいいかでも結構ですので、アドバイスいただけると助かります。よろしくお願いします。

meg_

2019/09/10 02:17

上記のコードですと、「table」に「soup.findAll('div',{'class':'fin_q_t0_d fin_q_t1_d'})[0]」で、最初に見つかった要素を取得しています。 [0]をやめて、tableに複数の要素を入れてあげれば良いかと。そのあと、 for t in table: rows = table.findAll('td') for row in rows: みたいなコードで良いのではないでしょうか。(検証してないのでここに書きます）