質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2630閲覧

python webスクレイピング

ryry73

総合スコア11

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/05/17 03:09

編集2018/05/17 04:33
<tr> <td class="td11">2590</td> <td class="td12">ダイドーグループホールディングス</td> <td class="td11">東証1部</td> <td class="td11">1月20日</td> <td class="td11"><a href="https://stocks.finance.yahoo.co.jp/stocks/detail/?code=2590" target="_blank">株価</a> | <a href=" https://info.finance.yahoo.co.jp/stockholder/detail/?code=2590" target="_blank">優待</a></td> </tr> ちなみにこのようなコードを用意していました。 ```ここに言語を入力 import requests, bs4 res = requests.get('https://kabu.hikak.com/01000000/&#039;) res.raise_for_status() soup = bs4.BeautifulSoup(res.text, "html.parser") table = soup.find('table',{'class':'table01'}) nans = table.find_all('tr') for nan in nans:      print(nan.td[2]) ``` この内容でスクレイピングをしたいのですが、<tr>内の<td>を、1個目3個目のように順番で指定して取り出すことはできますでしょうか? 今の段階では<tr>で取り出してテキストを抽出する事しかできませんが、特定の値を取得できるようにしたいと考えています。 どなたかわかる方がいましたら、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Lhankor_Mhy

2018/05/17 03:22

コードをご提示ください。
ryry73

2018/05/17 03:44 編集

import requests, bs4 res = requests.get('https://kabu.hikak.com/01000000/') res.raise_for_status() soup = bs4.BeautifulSoup(res.text, "html.parser") table = soup.find('table',{'class':'table01'}) nans = table.find_all('tr') for nan in nans:    print(nan.td[2]) のようなコードを用意していました。Key error と出てしまいます。 ごめんなさい改行しても投稿すると反映されませんのでかなり見づらくなってしまっています。
dit.

2018/05/17 04:22

teratailではソースコードをシンタックスハイライトすることができます。質問を編集し、コード部分を選択、<code>というボタンを押してください。PCであればプレビューが出ていると思いますので確認しながら編集してください。https://teratail.com/help/question-tips#questionTips3-5-1
guest

回答2

0

ベストアンサー

テーブル取得のサンプルです
テーブル番号と列番号を変更するとどのようなテーブルでも取得できますので
取得後の文字は加工してください。

python

1import pprint 2 3import requests 4from bs4 import BeautifulSoup 5 6# URLを変更 7url = 'https://kabu.hikak.com/01000000/' 8 9r = requests.get(url) 10 11if r.status_code == requests.codes.ok: 12 13 soup = BeautifulSoup(r.content, 'html.parser') 14 15 data = [[[td.get_text(strip=True) for td in trs.select('th, td')] 16 for trs in tables.select('tr')] 17 for tables in soup.select('table')] 18 19 # 取得テーブル数確認 20 print(len(data)) 21 22 # 取得テーブルデータ確認 23 pprint.pprint(data) 24 25 # 0番目のテーブル ※テーブル番号を変更 26 table = data[0] 27 28 # 1, 3列目 ※列番号を変更 29 columns = [1, 3] 30 31 result = [[rows[i] for i in columns] for rows in table] 32 33 pprint.pprint(result) 34

投稿2018/05/17 06:06

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ryry73

2018/05/20 00:59

ご丁寧にありがとうございます。 早速試してみます。
guest

0

nan.tdはリストを返さないと思いますので、.find_all()を使ってください。

投稿2018/05/17 05:25

Lhankor_Mhy

総合スコア35869

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問