Python スクレイピング

Question

**[実現したい事]**
Python/スクレイピング初心者です。毎日コツコツ勉強しています。
スクレイピングにてあるサイトからBeautifulsoupもしくは正規表現を使用して指定の箇所を抜き出したいと思っております。 
指定サイト：http://ranking.rakuten.co.jp/daily/564500/ 
抜き出したい部分：レビュー件数の数字だけを全て抜き出したいと思っております。（※レビューの数値のコンマを抜かした状態で）

**[発生している問題・エラーメッセージ]**
下記のコードを書いて実行し、レビュー(●●●●件)ここまでは抜き取りが完了したのですが（）内の数字の取り出し方がわかりません。

----------------------------

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://ranking.rakuten.co.jp/daily/564500/')
bsObj = BeautifulSoup(html,'html.parser')
for review in bsObj.findAll("div",{"class":"rnkRanking_starBox"}):
	print(review.text.replace(',', ''))

----------------------------


また、正規表現で
import re
m = re.match('[^\d]*(\d+).*$', 'レビュー(335件)')
print(m.groups())
こうやって記載すると(‘335’,)ここまでは出るのですが、
なぜ()がついてきてしまうのか、またこのコードをどうやって上のコードに組み込むのかがわからず悪戦苦闘しております。

**[依頼/質問]**
１、（）内の数値の抜き出し方を教えて頂けないでしょうか。（ページ内全て、コンマ抜き）
２、上記コードを実行時に改行スペースが多くできてしまうのですが、すっきりできないでしょうか（改行部分をなくしたいです）

皆様お忙し中すいません。。
上記教えて頂けますと幸いです。

よろしくお願い致します。

Accepted Answer

```Python
for review in bsObj.findAll("div",{"class":"rnkRanking_starBox"}):
    link_tag = review.find('a')
    soup_string = str(link_tag)
    review_count = soup_string[soup_string.find("(")+1:soup_string.find("件)")]
    review_count = review_count.replace(',', '')
    print (review_count)
```

自分ならこんな感じにします。

```Python
print(review.text.replace(',', ''))

```
上記コードで改行が多くなるのはreview.textには空文字を含むdiv要素も含まれているからですね。
あとbsObjから返ってくるオブジェクトはbs4.element.Tagクラスなので正規表現などで扱いたい場合str()で文字列へ変換してやる必要があります。

Answer

```python
for review in bsObj.findAll("div", {"class": "rnkRanking_starBox"}):
    print(review.get_text(strip=True).strip('レビュー(件)').replace(',', ''))
```

自分だったら

.get_text(strip=True)
get_textでタグ内のテキストを取得、strip=Trueで前後の空白文字を除去

.strip('レビュー(件)')
前後の数字以外の文字を除去
※「レ」「ビ」「ュ」「ー」「(」「件」「)」１文字ずつ削除するイメージです。
.lstrip('レビュー(')
.rstrip('件)')
も一緒です。

.replace(',', '')
コンマを除去

関連した質問