やりたいこと
webサイトから表をスクレイピングしたいと思っております。
下記のようなコードからtableの部分を取り出し、
リストに格納して出力をさせたいと思っております。
Elements
1<table> 2<td class="is-lineH2" rowspan="4"> 3 aaa 4 <br>bbb 5 <br>ccc 6 </td> 7</table>
のwebでの表のaaa,bbb,cccを抜き出して
リストに格納するプログラムを書きました。
python
1from bs4 import BeautifulSoup 2import requests 3import pandas as pd 4from pandas import Series,DataFrame 5url = 'https://www.aaa' 6result = requests.get(url) 7c = result.content 8soup = BeautifulSoup(c,'lxml') 9summary = soup.find('div',{'class':'contentsFrame1_inner'}) 10table = summary.find_all('table') 11data = [] 12rows = table[1].find_all('tr') 13for tr in rows: 14 cols = tr.find_all('td') 15 for td in cols: 16 text = td.find(text=True) 17 print(text) 18 data.append(text)
このプログラムを実行したところ、
['aaa']という結果が出力され、表の中で改行している
'bbb'と'ccc'は出力されていない結果が返ってきました。
['aaa','bbb','ccc']
結果として取り出すにはどのように修正すればよろしいですか?
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。