質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

ページネーション

Webアプリケーションにおいて、1ページに収まらないコンテンツを、各ページへのリンクを並べてアクセスしやすくする手法をページネーションと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1041閲覧

Pythonでのスクレイピングで、ページネーションの”次へ”をたどれません

fu_3823

総合スコア81

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

ページネーション

Webアプリケーションにおいて、1ページに収まらないコンテンツを、各ページへのリンクを並べてアクセスしやすくする手法をページネーションと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2021/10/12 20:23

スクレイピングの勉強をしています。
ページネーションの”次へ”を辿っていきたいのですが、リンクを取得することができません。
seleniumで"次へ"ボタンをクリックしていくというやり方を勉強しているところで躓きました。

該当のページネーションの"次へ"の部分は、以下のような構造になっています。

HTML

1<p class="AAA"> 2    <span class="BBB"> 3        <span style="width:10px;height:10px" class="CCC"></span> 4    </span> 5    "次へ" 6</p>

Pythonでのコードは以下のです。
リンクが取れたら、Trueをprintしようとしました。

Python

1try: 2 next_button = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.LINK_TEXT, '次へ'))) 3 print(True) 4except: 5 print(False)

上記のような構造のページネーションから、リンクを辿ることは可能なのでしょうか。
参考までに、webサイトのスクレピングに関する規約による可否は確認済みです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

By.LINK_TEXTは、aタグのリンクテキストとの完全一致のはずなので、お書きのHTMLでは一致しないと思います。

XPathで、「テキストノードが次へを含む」という条件で探すのでしょうか。

投稿2021/10/13 15:14

otn

総合スコア84505

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fu_3823

2021/10/14 19:25

返信ありがとうございました。記載のHTMLですが、そもそも、ソースコードの中に、”次へ”が示すURLが見当たりません。aタグなどがあれば良いのですが、そうではないので、selseniumを用いてボタン押すというやり方をとりました。しかし、上記のHTMLでは、何をボタンとして取得したらいいのか分からず、行き詰まってしまいました。このような構成の場合、”次へ”の文字列にリンクが割り当てられていて、find_element_by_link_text などでリンクを取得するのでしょうか。どれもなかなかうまく行きません。
otn

2021/10/15 04:56

もしかして、ブラウザの開発者ツールを使ったことが無いと言うことでしょうか? ボタンを右クリックして、「調査」とか「検証」とか選ぶと、開発者ツールというのが起動して、HTML上でどの要素に当たるのか表示してくれます(場合によっては「調査」または「検証」を再度選ぶ必要あり)。
fu_3823

2021/10/15 09:22

いえ、chromeの開発者ツールを使っていますが、ソースコードにリンクらしいURLなどが見当たらないのです。スクレイピング初学者で、初歩的なことの理解不足かもしれませんが、質問文に記載したHTMLから、”次へ”ボタンに関連づけられたリンクを取ったり、ボタンを取得したりすることはできるのでしょうか。該当のソースコードの”次へ”はただのテキストに見えますし、その他に<a>タグも持っていません。
otn

2021/10/15 09:34

clickするとjavaScriptが拾っているのではないでしょうか。 いずれにせよ、開発者ツールが使えるなら、クリックする要素の特定は出来るはずで、それを検索してclick()すれば良いかと思います。
fu_3823

2021/10/15 13:03

分かりました。メソッドを変えて色々やってみます。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問