回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップスクレイピングに関する質問

Q&A

解決済

2回答

1441閲覧

気象庁データのスクレイピングをしています

総合スコア71

0グッド

2クリップ

投稿2020/05/26 14:32

0

2

気象庁データ(降水量)をスクレイピングを行おうと思います。
https://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?prec_no=11&block_no=47401&year=2020&month=1&day=&view=p5

このサイトから表の数値と月だけのlistの作成が目標です。
下記のコードで表の場所まではとってこれたのですが、このあとどのようにして「赤枠」だけを取得できるのか困っています。

python3
1r = requests.get(f"https://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?prec_no=11&block_no=47401&year=&month=&day=&view=p5")
2soup = BeautifulSoup(r.content, "html.parser")
3areas = soup.find_all(id="tablefix1")

スクレイピングとwebの初心者で指定方法など慣れておりません。
宜しくおねがします

行動規範の内容に同意します

回答2件

0

ベストアンサー

pandasおまかせワザなのでスクレイピングの勉強にはなりません。こういうことも出来るという参考まで。

python3
1import pandas as pd
2url = "https://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?prec_no=11&block_no=47401&year=&month=&day=&view=p5"
3dfs = pd.read_html(url)[0]
4print(dfs[['年','1月','2月']])
5
6       年     1月     2月
70   1938   42.6   47.2
81   1939   38.0   26.7
92   1940   98.5   48.5
103   1941   83.1   83.8
114   1942   59.0   70.6
12..   ...    ...    ...
1378  2016  118.5  115.5
1479  2017   47.5   37.5
1580  2018  122.0   75.0
1681  2019   56.0   46.5
1782  2020   35.0   39.5
18

投稿2020/05/26 15:23

編集2020/05/26 15:25

総合スコア1096

2020/05/26 16:38

pandasは神でした　笑これはこれでありなので、次回はこれを使います。ありがとうございます

行動規範の内容に同意します

0

HTMLの構造をどの程度ご存知かわかりませんが、まずはソースコードを眺めて法則を見つけてください。

表の1行は<tr>で始まり、</tr>で終わっている。
年は<a>と</a>に囲まれている
月ごとのデータは<td>と</td>に囲まれている

例としていくつか挙げましたが、こういったパターンを見つけて、目的となる場所を抽出してみてください。

ちなみに、少しググればいくらでもBeautiful Soupを使ってテーブルをスクレイピングしている例が出てくると思いますよ。

投稿2020/05/26 14:43

総合スコア2536

2020/05/26 16:44

年 : areas1[1].find_all('a')[0].get_text() 降水量 : areas1[1].find_all('td')[1].get_text() これで取得ができました少しググって分からなかったのですが、ここまで深いものなんでしょうか？

2020/05/27 01:06

深いもの、とはどういうことでしょう？情報を抽出する難易度はサイトの構造よって大きく変わりますが、基本的には回答したような流れになるかと思います。もちろんそれを簡単にするライブラリなどもあるので、実際にはいろいろ活用することになるとは思いますが。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

気象庁データのスクレイピングをしています

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る