こんちには、現在、HTMLコードのpythonによる正規表現をしています。
以前から取り組んでいるスクレイピングだけでは取得が複雑な部分を
正規表現で取得することで、カバーしようと試みています。
ある程度は、値を他の部分では取得できているのですが、
正規表現で絞ったhtmlから、再度、正規表現を
行っている部分の値がうまく取得できません。
コードは以下のようになります。
python
1 """(seleniumで取得した)htmlの絞り込み""" 2 pattern1 = '<th>合計</th>(.*?)</tr>' 3 total_html = re.findall(pattern1,html,re.S) 4 """確認用に表示""" 5 print(total_html) 6 7 pattern2 = '<td class=".cost">(.*?)</td>' 8 total = re.findall(pattern2,total_html,re.S) 9 print("合計金額:"+total[0])#合計金額部分の表示
確認用に表示したhtmlコード部分([]も表示されてしまっています)
['\n<td class="cost">1,000円</td>\n<td class="cost">0円</td>\n<td class="cost">0円</td>\n\n<td class="cost">500円</td>\n\n']
自分がまだまだ正規表現について知識が未熟なので
原因が分かりません。
なぜ値をうまく取得できないのでしょうか?
原因がお分かりになる方、いらっしゃいましたら
ご教授お願いできないでしょうか?
よろしくお願いいたします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/04/04 06:32