ＨＴＭＬコードのpythonによる正規表現で指定した部分が取得できない理由は？

こんちには、現在、HTMLコードのpythonによる正規表現をしています。

以前から取り組んでいるスクレイピングだけでは取得が複雑な部分を
正規表現で取得することで、カバーしようと試みています。

ある程度は、値を他の部分では取得できているのですが、
正規表現で絞ったhtmlから、再度、正規表現を
行っている部分の値がうまく取得できません。

コードは以下のようになります。

python
1        """(seleniumで取得した)htmlの絞り込み"""
2        pattern1 = '<th>合計</th>(.*?)</tr>'
3        total_html = re.findall(pattern1,html,re.S)
4        """確認用に表示"""
5        print(total_html)
6
7        pattern2 = '<td class=".cost">(.*?)</td>'
8        total = re.findall(pattern2,total_html,re.S)
9        print("合計金額:"+total[0])#合計金額部分の表示

確認用に表示したhtmlコード部分([]も表示されてしまっています)

['\n<td class="cost">1,000円</td>\n<td class="cost">0円</td>\n<td class="cost">0円</td>\n\n<td class="cost">500円</td>\n\n']

自分がまだまだ正規表現について知識が未熟なので
原因が分かりません。

なぜ値をうまく取得できないのでしょうか？

原因がお分かりになる方、いらっしゃいましたら
ご教授お願いできないでしょうか？
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

元htmlおよびやりたいことがうまく把握できているか自信がありませんが、以下のような感じでしょうか？

Python
1src_html = """
2<th>合計</th>
3略
4<td class="cost">1,000円</td>\n<td class="cost">0円</td>\n<td class="cost">0円</td>\n\n<td class="cost">500円</td>
5略
6</tr>
7"""
8
9total_html = re.findall( '<th>合計</th>(.*?)</tr>', src_html, re.S)
10if total_html:
11    # とりあえず最初のみ(total_html[0])でよい？
12    for td in re.findall( r'<td class="cost">(.*?)</td>', total_html[0], re.S): # '.cost'->'cost'
13        print('合計金額:' + td)