スクレイピングでアニメタイトルを抽出しようと健闘しています。
pythonの正規表現を使用して以下のhtmlから、第1話「使徒、襲来」のみを抽出しようと試みました。
python
1title = re.findall("\">(\w+) </a></h2>",text)
html
1<div><a href="eva_story1/" title="第1話「使徒、襲来」"><img src="/wp-content/uploads/evangelion_tv01title-medium.png" alt="エヴァンゲリオンTV 第1話 タイトル"></a></div> 2<h2><a href="eva_story1/" title="第1話「使徒、襲来」">第1話「使徒、襲来」</a></h2>
htmlの最後の</a></h2>を頼りに抽出させようとしているのですが、全く1つもマッチしません。
reリファレンスを見て、(\w+)で、文字列を指定させるといった事をさせたのですが、それでもマッチができませんでした。
回答1件
あなたの回答
tips
プレビュー