スクレイピング　 内のテキスト取得

前提・実現したいこと

jupyter notebookを使ってスクレイピングを試みています。
＊初心者です。

取得したい情報は、

<tr> <td class="cell_white" valign="top" width="400">（東京、一般標準タイプ、需要家渡し、１kg、90～150日手形） 高密度PE（粒状、一般フィルム用）　　　212-232円 低密度PE（〃、〃）　　　　　　　　　　222-252円 　　〃　　（〃、その他用）　　　　　　232-252円 PP　　　（〃、雑貨向け）　　　　　　　222-262円 GPPS　（〃、〃）　　　　　　　　　　　197-213円 HIPS　（〃、〃）　　　　　　　　　　　267-287円 ABS　　（〃、成型用）　　　　　　　　 300-340円 PA6　　（〃、〃）　　　　　　　　　　 330-380円 PA66　（〃、〃）　　　　　　　　　　　450-500円 POM　　（〃、〃）　　　　　　　　　　 290-320円 PC　　　（〃、〃）　　　　　　　　　　400-440円 変性PPE　　　　　　　　　　　　　　　 470-520円 PBT　　（〃、〃）　　　　　　　　　　 380-430円 ※上記内容についてのお問合せにはお応えできませんので 　悪しからずご了承ください。 2020年1月9日（木）日本経済新聞より</td> <td class="cell_white" width="200"></td> </tr> のうちの数値の部分(222-262など)です。

どのようにすれば、 内のテキストのみを取得できるでしょうか。
まったくの初心者ですので、お手柔らかにお願いします。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

import urllib.request
from bs4 import BeautifulSoup
import re

url = "http://www.daikenkasei.com/news/aydiary.php"
f = urllib.request.urlopen(url, timeout=1)
html = f.read().decode('utf-8')

soup = BeautifulSoup(html, "html.parser")

試したこと

def filter_br_pe(tag):
if tag.name == 'br' and tag.text == 'PP':
return True
return False

soup = BeautifulSoup(html, 'html.parser')
print(soup.find(filter_br_pe))

いくつかウェブを参考にトライしてみましたが、うまくいきませんでした。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

kyoya0819

2020/03/24 07:06

内とは？

KatsuTake

2020/03/25 05:31

数値の部分(222-262など)の部分を取得したと思っております。なぜか投稿させていただいたときに、いくつか文章が欠落していました。

行動規範の内容に同意します

回答2件

ベストアンサー

数値の部分が欲しいとなると下のコードのget_price_range関数が
抽出処理をしている関数です。正規表現で抜いています。

Python
1import re
2import urllib.request
3
4from bs4 import BeautifulSoup
5
6
7def get_price_range(text):
8    price_list = re.findall("[0-9]+-[0-9]+円", text)
9    price_list = [price.strip("円").split('-') for price in price_list]
10    return [tuple(map(int, price_range)) for price_range in price_list]
11    
12    
13def main():
14    url = "http://www.daikenkasei.com/news/aydiary.php"
15    f = urllib.request.urlopen(url, timeout=1)
16    html = f.read().decode('utf-8')
17    soup = BeautifulSoup(html, "html.parser")
18    
19    paragraph = soup.find_all("p")
20    for p in paragraph:
21        price_list = get_price_range(p.get_text())
22        if price_list:
23            print("=-" * 16)
24            import  pprint
25            pprint.pprint(price_list)
26            
27            
28if __name__ == "__main__":
29    main()
30

投稿2020/03/24 11:16

退会済みユーザー

総合スコア0

KatsuTake

2020/03/26 05:16

誠にありがとうございます。書いてくださったコードを解釈することにまだ時間を要しますが、必要な情報は取得することができました。重ねて御礼申し上げます。

行動規範の内容に同意します

は改行のことなので、中身という概念がありません。
HTMLを読む限り、タグの中のテキストを読み込みたい、という要求かと思います。
なので、検索対象はpになります。

少し大雑把な書き方になりますが、このようにすればとりあえず取得はできると思います。

Python
1import urllib.request
2from bs4 import BeautifulSoup
3
4url = "http://www.daikenkasei.com/news/aydiary.php"
5f = urllib.request.urlopen(url, timeout=1)
6html = f.read().decode('utf-8')
7
8soup = BeautifulSoup(html, "html.parser") 
9
10tags = soup.find_all("p")
11for i in tags:
12  print('text:{}'.format(i.decode_contents(formatter="html").replace('<br/>','\n')))