python, beautifulsoupで取得したデータから不要な情報を取り除きたい

python3系でbeatifulsoupを使い、特定ページから情報を取得したいが、取得済みの情報に一部不要のものが入ってしまいます。

取得したい情報：<a href="/works/12345678">AAAA</a>
不要の情報：<a href="/works/12345678/chapters/87654321">BBB</a>

正規表現の条件を何度か変更して試してみたが、うまく不要の情報を取り除けなくて、
取得したい情報のみ保持する正規表現の修正方法をご教示していただきたいです。
また正規表現じゃなくてもほかのアプローチがあればぜひ教えていただければと思います。

url = "https://xxxxxx"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
elems = soup.find_all("a")

works = soup.find_all(href=re.compile(r'[/works/]\d{8}$'))
for work in works:
print(work)

###補足情報（FW/ツールのバージョンなど）
python3系のanaconda環境下で, jupyter notebookを使用しています。

行動規範の内容に同意します

回答1件

ベストアンサー

AAAの側だけを取りたいときの条件を、質問文のコードから「/works/00000000の形式のリンクのみに絞りたい」という表現と解釈するならば、

diff
1- works = soup.find_all(href=re.compile(r'[/works/]\d{8}$'))
2+ works = soup.find_all(href=re.compile(r'^/works/d{8}$'))

で、取得できるのではないかなと。

もとの正規表現だと、「/,w,o,r,k,sのいずれかで始まり8桁の数値で終わる」になるため、

あたりが原因となって抽出に失敗していそうです。

投稿2021/07/06 10:17

総合スコア2740

2021/07/06 11:18

ご指摘していただいた通り、該当2点の考慮ができていなくて、条件をr'^/works/\d{8}$に変更したところ、無事ほしい情報だけ抽出できるようになりました。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問