beautifulsoup を用いて、競馬情報をスクレイピングする中で、＜ｐ＞で改行された情報が取れずに苦慮しています。

Question

**netkeiba.com様から、beautifulsoup を用いて、競馬情報をスクレイピングする中で、＜ｐ＞で改行された以降の情報が取れずに苦慮しています。** ```ここに言語を入力 # -*- coding:utf-8 -*- import urllib2 import codecs import time from bs4 import BeautifulSoup f1 = codecs.open('chukyo_race_1.csv', 'w', 'utf-8') f1.write('other_race_name'+u" ") url_1='http://race.netkeiba.com/?pid=race_old&id=c201707040101&mode=top' soup_1 = BeautifulSoup(urllib2.urlopen(url_1).read(),"lxml") other_race_name_tag_1 = soup_1.find('div',{'class':'race_otherdata'}).find('p') other_race_name_1 = "".join([x for x in other_race_name_tag_1.text if not x == u'\xa0' and not x == u' ']) cols = [other_race_name_1.strip()] f1.write(",".join(cols) + " ") print other_race_name_1.strip() f1.close() ``` netkeiba.com 様からスクレイピングさせていただいているのですが、上記のプログラムを動かすと、以下のようになります ```ここに言語を入力 4回中京1日目２歳 ``` netkeiba,com様のソースコードを、下記に記します。 ```ここに言語を入力

4回中京1日目２歳

混[指定] 16頭

本賞金：500、200、130、75、50万円

``` 小生のしたいことは、 ```ここに言語を入力 4回中京1日目２歳16頭 ``` というように、＜P＞　の２行目の、16頭という　情報も取得することです。しかし、改行されていることで、１行目のみしか、取得できません。改行された以降の部分も取得したいのです。 findの部分を、findall に改変したり、select にも改変したのですが、エラーが出てしまいます。いろいろ調べたのですが、うまく出来ず、苦慮しております。諸先輩方の、御教示、よろしくお願いいたします。

Accepted Answer

`find_all`で該当要素を複数取得できます。あとはループで適切に処理します。 ```Python from bs4 import BeautifulSoup html = """

4回中京1日目２歳

混[指定] 16頭

本賞金：500、200、130、75、50万円

""" soup = BeautifulSoup(html,"lxml") d = soup.find('div',{'class':'race_otherdata'}) for p in d.find_all('p'): t = p.text.replace(u'\xa0', ',') # 「」(NO-BREAK SPACE)=\xa0を分かりやすい区切り文字に置換 print t """ 4回中京1日目,２歳, 混[指定],16頭本賞金：500、200、130、75、50万円 """ ```