前提・実現したいこと
python3系でbeatifulsoupを使い、特定ページから情報を取得したいが、取得済みの情報に一部不要のものが入ってしまいます。
取得したい情報:<a href="/works/12345678">AAAA</a>
不要の情報:<a href="/works/12345678/chapters/87654321">BBB</a>
正規表現の条件を何度か変更して試してみたが、うまく不要の情報を取り除けなくて、
取得したい情報のみ保持する正規表現の修正方法をご教示していただきたいです。
また正規表現じゃなくてもほかのアプローチがあればぜひ教えていただければと思います。
該当のソースコード
url = "https://xxxxxx"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
elems = soup.find_all("a")
works = soup.find_all(href=re.compile(r'[/works/]\d{8}$'))
for work in works:
print(work)
出力結果
<a href="/works/12345678">AAAA</a>
<a href="/works/12345678/chapters/87654321">BBB</a>
###補足情報(FW/ツールのバージョンなど)
python3系のanaconda環境下で, jupyter notebookを使用しています。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/07/06 11:18