pythonでWebスクレイピング　爆砕編

Question

### 前提・実現したいこと爆砕のレスをPYTHONでスクレイピングしようとしています。単純な方法では、改行タグのせいで出力がNoneで返ってきますので、仕方なく添付しておりますコードにしております。問題は解決したのですが、応用性が悪く、日にちが変われば使えません。タグをキレイに整理された状態で出力したいです。 ### 発生している問題・エラーメッセージ

タグで区切ると欲しいデータが丸々ありますが、いらないタグや改行によっては抜け落ちる行があります。 ### 該当のソースコード ``` import requests from bs4 import BeautifulSoup r = requests.get("http://kanto.hostlove.com/caat/20181028151541/a/1") soup = BeautifulSoup(r.content, "html.parser") for i in soup.find_all("div", class_="res"): for j in i.contents: print(j.string) コード ``` ### 試したことそこで、欠落しない状態にしてから、条件で不要な文字を削除する方法をとりました。　※コードはfor文以下を変えております。 ``` product = soup.find_all("div",class_="res") for i in product: j =str(i) j=j.replace("

',"") j=j.replace("

","") j=j.replace("
","") j=j.replace("
","") j=j.replace('>>3
',"") j=j.replace('>>7
',"") print(j) コード ``` ### 補足情報（FW/ツールのバージョンなど） python3.5を使用しております。 beautiful soupをより良い形にできれば、タグをキレイにし、 Noneや欠落した文字列を欠落せずにできると思うので、良い方法を教えてください。

Accepted Answer

bs4.element.Tag.string はそのタグが1つの子要素を持ち、それが bs4.element.NavigableString である場合にテキストの内容を取得できます。
つまり、<b>test</b> のような配下がテキスト1つのみのとき、b_tag.string とすると、test が取得できます。
今回の件のように、div 配下に複数の子 (テキストや brタグ) がある場合は、bs4.element.Tag.text を使うとよいです。

python
1import requests
2from bs4 import BeautifulSoup
3
4res = requests.get('http://kanto.hostlove.com/caat/20181028151541/a/1')
5soup = BeautifulSoup(res.content, 'html.parser')
6
7for div_tag in soup.find_all('div', class_='res'):
8    text = div_tag.text.replace('\n', '')  #改行削除
9    print(text)
10    print('------------------------------------')

レスの区切りがわかるように ------ を入れて print() しています。

歌舞伎町コスプレセクキャバ萌
------------------------------------
前に居た、ゆうりちゃんにもう会う事は出来ないかな〜会いたい〜
------------------------------------
ヒナタと付き合いたい
------------------------------------
新店どうだった?
------------------------------------
>>3ハイエナ?wwww
------------------------------------
>>3シナモン良かったよ
------------------------------------
チナミね紹介が下がったのは店長にすてられた?
------------------------------------
ピックアップガールがリオナになったから、リオナがナンバーワンなの?
------------------------------------
新人じゃなくて、出戻りばっかり
------------------------------------
シナモン、可愛い子が多かった。
------------------------------------
>>7新人がナンバーワンなんて取れないと思うよ。
------------------------------------

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問