BeautifulSoupとseleniumの基礎的な質問です。スクレイピングの流れについて。

BeautifulSoup、seleniumを勉強中なのですが
seleniumでテキストの取得がなかなか進まず
ものすごく基礎的な質問ですが、見て頂けると幸いです。

HTML
1    <div class="aaa">
2        <div class="bbb">
3            <div class="ccc">
4            </div>
5            <h3>ランキング</h3>
6            <div class="ddd">
7                <li class="eee">総合ランキング<li>
8

このコードの「ランキング」を
スクレイピングしたいとして

BeautifulSoupの解析の流れは
aaaクラスでhtmlを取得し
その中でbbbクラスでhtmlを取得し
その中のテキストを取得する
流れでスクレイピングできると思います
（ほかにも取得の仕方はありますが）

seleniumの場合
BeautifulSoupと同じような流れではなく

cccクラスのテキストを取得する場合
find_element_by_class_name("class名").text

またはh3タグのxpathで取得する場合
find_element_by_tag_name("tag名").text

このようにseleniumはピンポイントに
テキストを取得していく
（ピンポイントでないと取得できない）
様なイメージであってますでしょうか？

教えて頂けると嬉しいです。
よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

find_elements_by_XXX 系のメソッドとループと分岐も使えば、BeautifulSoupと同じような操作ができるんじゃないでしょうか。

SeleniumはWebアプリケーションをテストするためのツールであって、スクレイピングのためのツールではないのですから、基本的なセレクタで素直にテストが書けるような構造を持っている方がよくて、ループと分岐を駆使しないとテスト対象の要素を特定できないようだとよくない、という価値観はありそうに思います。
テスト対象(=開発しているアプリケーション)の構造の方に問題があるんだからそっちをなんとかした方がいい、と考えるのは自然かと。
そのあたりが「説明のためのコード」に影響を与えている可能性もありそうと思いましたので。

投稿2021/08/24 00:17

編集2021/08/24 02:35