スクレイピングで指定していない要素まで取得してしまう

前提・実現したいこと

初学者です。
スクレイピングで指定していない要素まで取得してしまうことについて質問です。
例えば以下のコードのようにclass="aaa"を取得していにも関わらず、その下の要素も取得してしまうことがあります。
これは毎度ではなく、稀に狙い通りに取得できたり、不要な部分も取得してしまったりといったようになっており、原因の特定ができません。
よろしくお願いします。

該当のソースコード

html
1...
2
3<tbody>
4　<tr>
5    <a href="..." class="aaa">取得したいテキスト</a>
6  </tr>
7  <tr>
8    稀に取得される不要なテキスト
9  </tr>
10</tbody>
11
12...

Python
1resp = requests.get(url)
2soup = BeautifulSoup(resp.text, 'html.parser')
3
4tags = soup.select(".aaa")
5result = [tag.get_text(".aaa") for tag in tags]
6print(result)

　
出力1(うまくいった場合)

['取得したいテキスト']

　
出力2(うまくいかなかった場合)

['取得したいテキスト', '稀に取得される不要なテキスト']

試したこと

select以外にfindを使用する

補足情報（FW/ツールのバージョンなど）

Python3.8.2
BeautifulSoup4.9.3

plasticgrammer

2020/11/26 00:48

確認です。実際のコードも tag.get_text(".aaa") としていますか？（引数の".aaa"は不要では？）

行動規範の内容に同意します

回答1件

提示されているhtmlとコードでは一度も再現しないのでわかりませんが、私なら下記の様に書きますね。
稀に発生するのであればHTMLの構成が他と違ったりするのかもしれません。
下記のコードで複数の要素が見つかるのであればaタグでクラスがaaaの要素が他にも存在するのだと思います。

python3
1result = [r.text for r in soup.find_all("a", class_="aaa")]

投稿2020/11/26 00:47

fsoe

総合スコア163

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

スクレイピングで指定していない要素まで取得してしまう

前提・実現したいこと

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問