Pythonでスクレイピングする際に、データをもれなく正確に取得したい。

2023/05/06 13:27

「１ページあたり320ほどのデータ」というのは、どういう風に取得していますか？ #A #B 相当が実は4個じゃなくてが320個あると言うことでしょうか？

2023/05/06 13:32

コメントありがとうございます。取得してるデータはA～Bの４つなのですが、その塊が40個～80個あるということです。 ECサイトをイメージしていただければと思いますが、商品が横に4つ並んでいて、その中に価格などのデータがあります。さらにそれが20行～あるというような感じです。

2023/05/06 14:18

> すこしづつ処理に遅れが生じます。上記はどういうことでしょうか？”遅れ”とはseleniumの動作が重くなる？ということでしょうか？（メモリの問題？） > 最終的に出来上がったデータフレームは当然漏れだらけという状況です。すみませんが何が”当然”なのか説明いただけますでしょうか？サイトの情報更新速度がとても速いのでしょうか？？

2023/05/06 14:33

失礼しました。#が目立ったので、てっきりidかと思ったのですが、よく見るとピリオドがあるので、クラスでしたね。

2023/05/06 14:36

データを取得し始めてから取得し終わるまでに、ページが更新されているとかですかね。 wait.untilが全部終わった時点と、次ページに遷移する直前のそれぞれで、 page_souceを取得して比べてみるとかでしょうか。それが原因だとすると、ページ更新状況を把握しながらデータを取得しないといけなさそうです。もしくは検索条件で時間指定が出来れば、ちょっと前までのデータだけ見るとか。

2023/05/06 15:00

print(data)やprint(len(df))で出力したデータや数字を比較すると明らかに少ない数が表示されます。その後、CSV出力などをしてもデータ数が少ないため、漏れがあると考えられます。動作が重くなるというよりは、データを取得する処理もしくはdfに格納する処理が遅れていると思います。「当然」という言葉を使ったのは、処理が遅れておりprintされるデータが少ないため、最終的に取得できるデータも当然少ないという意味で使っておりましたが、わかりづらく表現してしまい申し訳ありません。

2023/05/06 15:23

page_sourceをしてみたところ、かなり容量が重いようで読み込みに時間がかかってしまっているのかもしれません。

2023/05/06 15:40

漏れているというか、単純に欲しい要素が取得できていないという可能性は無いのでしょうか？

2023/05/06 15:45

調べてみたところ、HTMLファイルが大きいのでmeg_様のおっしゃる通り取得できていないという可能性が高そうです。

2023/05/06 15:54

ループのそれぞれの回で、それぞれ2つのpage_souceは全部一致したのでしょうか、一致しなかった回があったのでしょうか？まだ調査中ですか？

2023/05/06 16:18

すいません。HTMLファイルが大きく、Jupiterではさばききれないみたいです、、、

2023/05/06 18:36

> HTMLファイルが大きく、Jupiterではさばききれないみたいです、、、もしかして、画面に表示して、目検で比較しようとしていた？？目検では無理では？コードを書くために回答にに書きます。

2023/05/07 03:21 編集

> １ページあたり320ほどのデータがあります。上記はスクレイピングで取得した情報から得た数値でしょうか？（目視の情報と合っているかの確認です）

2023/05/07 05:24

いえ、ウェブサイトを訪問し、目視で確認した情報です。そしてスクレイピングで取得した情報から得た数値はおよそその80%（1ページ目）でした。処理が進むにつれて、その数値の％は減っていきます。

2023/05/07 05:31

> スクレイピングで取得した情報から得た数値はおよそその80%（1ページ目）でした。 1ページ目で既に欠損が発生しているのですね。そのページをローカルに保存してスクレイピングした場合は欲しいデータを全て取得出来ますか？

2023/05/07 05:54

ダウンロードするとデータがきちんと表示されないみたいです。「ご指定のページが見つかりませんでした」となります。

行動規範の内容に同意します

回答1件

追記

すいません。昨夜寝ぼけてたのか、「idで検索している」という誤解からの脱却が不十分でした。

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.#A')))

は、そのクラスの要素が存在すればwaitは完了しますので、320個の要素がJavaScriptで順次追加されているのだとすると、「1つでも存在すれば」で待つのは不十分です。
「情報を取得している最中にどんどんページが書き換わる」よりはこちらが原因としてありそうです。

何らかの手段で、ページが全部更新終わったことを確認する必要があります。
先ほど取得した、初めの頃のHTMLと、終わりの方のHTMLを比較すれば何か見つかるかも。
個数がわかればその個数そろうまで待てば良い等。
確認手段が見つからないようなら、最悪、十分な時間待つとかですね。30秒とか1分とか。

ここから最初のアドバイス

HTMLファイルが大きく、Jupiterではさばききれないみたいです、、、

もしかして、画面に表示して、目で見て比較しようとしていましたか？目検で比較は無理では？
コード例を示します。（実行したわけじゃ無いのでタイプミスなどあれば直して下さい）

Python
1loop_count = 0 ###追加
2while True:
3    loop_count += 1 ###追加
4    #A,B,C,Dの値を取得するまで待機する
5    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.#A')))
6    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.#B')))
7    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.#C')))
8    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.#D')))
9   source1 = driver.page_source ###追加
10
11    #A,B,C,Dの値を見つけて、変数として格納する
12    A = driver.find_elements(By.CSS_SELECTOR, '.#A')
13    B = driver.find_elements(By.CSS_SELECTOR, '.#B')
14    C = driver.find_elements(By.CSS_SELECTOR, '.#C')
15    D = driver.find_elements(By.CSS_SELECTOR, '.#D')
16
17    # Next Pageのボタンを探して、次のページへ。もしdisableならbreak
18    next_button = driver.find_element(By.CLASS_NAME, 'pagination-next')
19    driver.execute_script("arguments[0].scrollIntoView();", next_button)
20    if next_button.get_attribute('disabled') == 'true':
21        break
22    
23    next_url = next_button.get_attribute('href')
24    source2 = driver.page_source ###追加
25    if source1 != source2: ###追加
26        print(f"{loop_count}回目の繰り返しで、最初と最後でHTMLが異なる") ###追加
27        with open(f"source1-{loop_count}.html","w") as f: ###追加
28            f.write(source1) ###追加
29        with open(f"source2-{loop_count}.html","w") as f: ###追加
30            f.write(source2) ###追加
31    else: ###追加
32            print(f"{loop_count}回目の繰り返しで、最初と最後でHTMLが同じ") ###追加
33    driver.get(next_url)
34    time.sleep(3)

最初と最後で不一致ならファイルに書くので、後で中を比較します。

投稿2023/05/06 18:51

編集2023/05/07 11:31

総合スコア86293

2023/05/07 05:49

1回目の繰り返しで、最初と最後でHTMLが異なる 2回目の繰り返しで、最初と最後でHTMLが異なる 3回目の繰り返しで、最初と最後でHTMLが異なる 4回目の繰り返しで、最初と最後でHTMLが同じ 5回目の繰り返しで、最初と最後でHTMLが異なる 6回目の繰り返しで、最初と最後でHTMLが同じ 7回目の繰り返しで、最初と最後でHTMLが同じ 8回目の繰り返しで、最初と最後でHTMLが同じ 9回目の繰り返しで、最初と最後でHTMLが同じ 10回目の繰り返しで、最初と最後でHTMLが同じ 11回目の繰り返しで、最初と最後でHTMLが同じ 12回目の繰り返しで、最初と最後でHTMLが同じ 13回目の繰り返しで、最初と最後でHTMLが同じ 14回目の繰り返しで、最初と最後でHTMLが同じ 15回目の繰り返しで、最初と最後でHTMLが同じ 16回目の繰り返しで、最初と最後でHTMLが同じ 17回目の繰り返しで、最初と最後でHTMLが同じ 18回目の繰り返しで、最初と最後でHTMLが同じ 19回目の繰り返しで、最初と最後でHTMLが同じ 20回目の繰り返しで、最初と最後でHTMLが同じ 21回目の繰り返しで、最初と最後でHTMLが同じ 22回目の繰り返しで、最初と最後でHTMLが同じ ... というような結果になりました。