正規表現抽出が思い通りに行かないためアドバイスをお願いします。

スクレイピングでアニメタイトルを抽出しようと健闘しています。
pythonの正規表現を使用して以下のhtmlから、第1話「使徒、襲来」のみを抽出しようと試みました。

python
1title = re.findall("\">(\w+) </a></h2>",text)

html
1<div><a href="eva_story1/" title="第1話「使徒、襲来」"><img src="/wp-content/uploads/evangelion_tv01title-medium.png" alt="エヴァンゲリオンTV 第1話 タイトル"></a></div>
2<h2><a href="eva_story1/" title="第1話「使徒、襲来」">第1話「使徒、襲来」</a></h2>

htmlの最後の</a></h2>を頼りに抽出させようとしているのですが、全く1つもマッチしません。
reリファレンスを見て、(\w+)で、文字列を指定させるといった事をさせたのですが、それでもマッチができませんでした。

LouiS0616

2020/02/13 12:47

『どのように』上手くマッチしないのですか？

chokokorone333

2020/02/13 12:53

分かりづらい文章で申し訳なかったです。 1つもマッチしません。

行動規範の内容に同意します

回答1件

ベストアンサー

以下のように修正したら抽出できました。

python
1>>> text='<div><a href="eva_story1/" title="第1話「使徒、襲来」"><img src="/wp-content/uploads/evangelion_tv01title-medium.png" alt="エヴァンゲリオンTV 第1話 タイトル"></a></div>\n<h2><a href="eva_story1/" title="第1話「使徒、襲来」">第1話 「使徒、襲来」</a></h2>'
2>>> title = re.findall("\">(.+)</a></h2>", text)
3#                           ^  ^
4#                           |  |
5#                   ①「\w → .」|
6#                        ②スペースを削除 
7>>> title
8['第1話「使徒、襲来」']

投稿2020/02/13 12:57

yukkeorg

総合スコア985

yukkeorg

2020/02/13 13:00

なお、提示されたHTMLでのみでの結果ですので、もしかしたらHTML全体では結果がおかしくなるかもしれません。予めご了承ください。

chokokorone333

2020/02/13 13:03

ご回答ありがとうございます。こちらは、スペースが邪魔をして、\wを認識していなかったと理解して大丈夫でしょうか？

yukkeorg

2020/02/13 13:34

スペースがあると、<の前に必ずスペースがないとマッチしなくなります。また、Pythonにおける検索対象がUnicode(str)の\wは、半角アンダーバー以外の記号は対象になりません。したがって、第1話「使徒、襲来」の "「」、"が対象にならないため、抽出できないのだと思います。

KojiDoi

2020/02/13 13:43

>"「」、"が対象にならないため、抽出できないのだと思います。それ以前に、<img src="/... でアウトでしょう。

yukkeorg

2020/02/13 14:57 編集

ご指摘ありがとうございます。今回は運良くHTML側に改行がありましたので、"「」、"が対象になったのかなと思います。もし、改行がなかった場合は、KojiDoiさんのおっしゃっている通り <img src="/ のまでマッチの範囲が伸びますので < が\wの対象にならず、結局どこにもマッチしないということになりますね。いずれにしましても、私が回答したものも含めた正規表現では、改行の無いHTMLを対象にした場合、正しい結果（今回の場合は"第1話「使徒、襲来」" ）がとれない可能性が高いと思いますので、より確実に抽出したい場合は、HTMLをパースするモジュール（Python標準ではhtml.parser、など）を利用をご検討されたほうがよいかと思います。

行動規範の内容に同意します