Python3.6 のbeautifulsoup4かScrapyでｽｸﾚｲﾋﾟﾝｸﾞをしたい！

ｽｸﾚｲﾋﾟﾝｸﾞについて。
プログラミング初心者です。ｽｸﾚｲﾋﾟﾝｸﾞは入門者用の例題しかやったことがありません。

方法はPython3.6 でbeautifulsoup4を使います。（Scrapyでも結構です）

https://shikiho.jp/tk/stock/info/9983#news_shikiho
↑このサイトの業績欄の右上14. 8の売上高「1,382,935」をｽｸﾚｲﾋﾟﾝｸﾞするには、
どのようなコードを実行すればいいですか？

http://bootcamp-text.readthedocs.io/textbook/7_scraping.html　
↑このサイトを参考にしましたが、そもそもHTMLがよくわかってないので、
タグなどのルールが理解できず大変苦労しております、、

アドバイスよろしくおねがいしますm(__)m

参考サイトの例題を見よう見まねで改良している最中のめちゃくちゃなコードですが。。↓

python3.6
1import requests
2from bs4 import BeautifulSoup
3
4
5def main():
6    url = 'https://shikiho.jp/tk/stock/info/9983'
7    res = requests.get(url)
8    content = res.content
9    soup = BeautifulSoup(content, 'html.parser')
10    uriagedaka = soup.find_all('div', class_='gyouseki') #gyouseki?
11    for @@@@@ in uriagedaka:  #for文の変数と値に何を入れればいいかわからない
12        uriagedaka = gyouseki.td.a['href'] #href?
13                print(uriagedaka)
14
15
16if __name__ == '__main__':
17    main()

補足：
↓こんな感じでやりたいです！！
https://qiita.com/hujuu/items/b0339404b8b0460087f9

umyu

2017/11/22 14:32

作成中のプログラムソースコードを質問文に追記してくださいな。

tuna.py

2017/11/22 16:15

すいません、かなりやりかけですが、追記しました。よろしくおねがいします！

行動規範の内容に同意します

回答1件

ベストアンサー

Python
1# -*- coding: utf-8 -*-
2import requests
3from bs4 import BeautifulSoup
4
5
6def get_response(url):
7    user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
8    return requests.get(url, headers={'User-Agent': user_agent}, timeout=2000)
9
10
11def main():
12    url = 'https://shikiho.jp/tk/stock/info/9983'
13    soup = BeautifulSoup(get_response(url).content, 'html.parser')
14    for syuyou in soup.find_all(class_='syuyou'):
15        for tr_tag in syuyou.find_all('tr'):
16            print('=' * 50)
17            #他の値を取りたい時はこの部分のコメントを外して試行錯誤してみてくださいな。
18            #print(tr_tag)
19            print(tr_tag.th.text)
20            if tr_tag.td is None:
21                continue
22            print('#' * 50)
23            print(tr_tag.td.text)
24            print('#' * 50)
25
26
27if __name__ == '__main__':
28    main()
29

□タグの調べ方
Google Chromeでサイトを開き→スクレイピングを行いたい部分を右クリック→検証をクリックで該当部分のタグが選択されます。該当部分の要素が含まれている親要素のclass やidを元にスクレイピングを行います。
質問文の場合、サイトにtable class="syuyou"が定義されているのでこれを使用します。

※スクレイピングの注意事項
1,サイトの規約で機械でのアクセス（スクレイピング）を禁止しているサイトがあります。
2,相手のサイトに負荷がかからないように、requests.get(url)を行う時は適宜 time.sleepをいれてくださいな。
3,株価情報は著作権情報として扱われる事が多いですその点留意してください。

投稿2017/11/22 17:39

umyu

総合スコア5846