🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2005閲覧

時刻表から時刻をBeautifulsoupでスクレイピングして取りたいのですがうまくいきません。

fumito_94

総合スコア679

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2019/11/12 13:14

やりたいこと

http://transfer.navitime.biz/tokyu/pc/diagram/TrainDiagram?stCd=00005946&rrCd=00000789&updown=0
時刻表から時刻(できれば終点と急行などの種類も)を取得したいです。

困ってること

時間は取得できるのですが、分数を取得しようとすると最初の一つしか取得できず、他のものが取得できません。

やろうとしてること

  1. 時刻の列を取る
  2. 各列から時間と分数を取る => 今ここ
  3. 取得した時間と分数を連想配列の形で保存する
  4. json形式でファイルに書き出す

コード

python

1from bs4 import BeautifulSoup 2 3url = "http://transfer.navitime.biz/tokyu/pc/diagram/TrainDiagram?stCd=00005946&rrCd=00000789&updown=0" 4 5html = requests.get(url) 6soup = BeautifulSoup(html.content, "html.parser") 7hour_times = soup.find_all('div', 'table-box') 8for hour_time in hour_times: 9 hour = hour_time.find('div', 'table-row-title-text').text 10 // minutesが一つしか取れない 11 minutes = hour_time.find('div', 'table-row-time') 12 // ここで配列に入れて[5 => [11, 21]]のように[hour => [minute, minute]]の形で取りたい

一応上記でやろうとしているのですが、うまくいかず相談させてもらいました。
もしも違う書き方やBeautifulsoup以外のやり方で簡単なやり方あるなどありましたら教えていただけると幸いです。
初歩的なミスかもしれないのですが、何卒よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

まず基本ができていないのでこちらの記事を読んで勉強してください

[Python入門]Beautiful Soup 4によるスクレイピングの基礎 (1/2)
https://www.atmarkit.co.jp/ait/articles/1910/18/news015.html

findとfind_all
classの指定方法

findとfind_all

python

1for i in soup.find_all("div", class_ = "diagram-result-table"): 2 # 時間に分ける 3 for j in i.find_all("div", class_ = "table-box"): 4 # 時間を取得 5 h = j.find("div", class_ = "table-row-title-text").get_text(strip = True) 6 # 分を取得 7 m = [k.get_text(strip = True) for k in j.find_all("span", class_ = "table-row-item-minutes")] 8 print(h, m) 9 print("-" * 20)

CSSセレクタのselect_oneとselect

CSSセレクタのほうが書きやすくあと細かく指定しやすいので
こちらをメインに勉強されるほうがいいです

python

1# 平日・土曜日・日曜/祝日に分ける 2for i in soup.select("div.diagram-result-table"): 3 # 時間に分ける 4 for j in i.select("div.table-box"): 5 # 時間を取得 6 h = j.select_one("div.table-row-title > div.table-row-title-text").get_text(strip = True) 7 # 分を取得 8 m = [k.get_text(strip = True) for k in j.select("div.table-row-time > ul.table-row-time-table > li.table-row-item a.d_03 > div.table-row-item-middle > span.table-row-item-minutes")] 9 print(h, m) 10 print("-" * 20)

投稿2019/11/12 14:07

編集2019/11/13 00:48
barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fumito_94

2019/11/13 15:26

すごく丁寧に説明していただきありがとうございます。 とても勉強になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問