質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

403閲覧

htmlのスクレイピングについて

shunsuke1937

総合スコア48

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/07/28 12:52

やりたいこと

webサイトから表をスクレイピングしたいと思っております。
下記のようなコードからtableの部分を取り出し、
リストに格納して出力をさせたいと思っております。

Elements

1<table> 2<td class="is-lineH2" rowspan="4"> 3 aaa 4 <br>bbb 5 <br>ccc 6 </td> 7</table>

のwebでの表のaaa,bbb,cccを抜き出して
リストに格納するプログラムを書きました。

python

1from bs4 import BeautifulSoup 2import requests 3import pandas as pd 4from pandas import Series,DataFrame 5url = 'https://www.aaa' 6result = requests.get(url) 7c = result.content 8soup = BeautifulSoup(c,'lxml') 9summary = soup.find('div',{'class':'contentsFrame1_inner'}) 10table = summary.find_all('table') 11data = [] 12rows = table[1].find_all('tr') 13for tr in rows: 14 cols = tr.find_all('td') 15 for td in cols: 16 text = td.find(text=True) 17 print(text) 18 data.append(text)

このプログラムを実行したところ、
['aaa']という結果が出力され、表の中で改行している
'bbb'と'ccc'は出力されていない結果が返ってきました。
['aaa','bbb','ccc']
結果として取り出すにはどのように修正すればよろしいですか?
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

python

1from bs4 import BeautifulSoup 2 3html = """ 4<table> 5<td class="is-lineH2" rowspan="4"> 6 aaa 7 <br>bbb 8 <br>ccc 9 </td> 10</table> 11""" 12 13soup = BeautifulSoup(html, "lxml") 14 15print([el.replace("\n", "").strip() for el in soup.find("td").strings])

htmlファイルがすべて掲載されていないので、正しいかどうかはわかりませんが、これでどうでしょう。

投稿2018/07/28 14:19

crimnut

総合スコア380

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問