質問するログイン新規登録
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Cloudflare

Cloudflareは、CDNサービスの一つ。世界中のサーバーでコンテンツをキャッシュし、読み込みを高速化できます。DDoS攻撃などの脅威を軽減し、Webサイトの可用性を向上。SSL証明書やDNSサービスなど付加機能も充実しています。

Q&A

0回答

119閲覧

PythonでDrissionPageを使ってスクレイピングしようとするとエラーが出る

flipwide

総合スコア7

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Cloudflare

Cloudflareは、CDNサービスの一つ。世界中のサーバーでコンテンツをキャッシュし、読み込みを高速化できます。DDoS攻撃などの脅威を軽減し、Webサイトの可用性を向上。SSL証明書やDNSサービスなど付加機能も充実しています。

0グッド

0クリップ

投稿2025/01/21 01:24

0

0

実現したいこと

DrissionPageを使ってCloudflareを設定しているサイトをスクレイピングしたい
(DrissionPage以外でもCloudflareを設定しているサイトをスクレイピングできればいいのですが、方法がわからず、、、)

発生している問題・分からないこと

下記ソースコードを実行すると、エラーになる

エラーメッセージ

error

1Traceback (most recent call last): 2 File "test_cloudflare.py", line 3, in <module> 3 page = ChromiumPage() 4 File "/Users/zzz/.pyenv/versions/3.8.0/lib/python3.8/site-packages/DrissionPage/_pages/chromium_page.py", line 38, in __new__ 5 is_exist, browser_id = run_browser(opt) 6 File "/Users/zzz/.pyenv/versions/3.8.0/lib/python3.8/site-packages/DrissionPage/_pages/chromium_page.py", line 337, in run_browser 7 is_exist = connect_browser(chromium_options) 8 File "/Users/zzz/.pyenv/versions/3.8.0/lib/python3.8/site-packages/DrissionPage/_functions/browser.py", line 33, in connect_browser 9 test_connect(ip, port) 10 File "/Users/zzz/.pyenv/versions/3.8.0/lib/python3.8/site-packages/DrissionPage/_functions/browser.py", line 213, in test_connect 11 raise BrowserConnectError(f'\n{ip}:{port}浏览器无法链接。\n请确认:\n1、该端口为浏览器\n' 12DrissionPage.errors.BrowserConnectError: 13zzz.z.z.z:zzzz浏览器无法链接。 14请确认: 151、该端口为浏览器 162、已添加'--remote-debugging-port=zzzz’启动项 173、用户文件夹没有和已打开的浏览器冲突 184、如为无界面系统,请添加'--headless=new'参数 195、如果是Linux系统,可能还要添加'--no-sandbox'启动参数 20可使用ChromiumOptions设置端口和用户文件夹路径。

該当のソースコード

Python

1from DrissionPage import ChromiumPage 2 3page = ChromiumPage() 4page.get("https://uniteapi.dev/meta") 5html_content = page.html 6page.quit() 7

試したこと・調べたこと

  • teratailやGoogle等で検索した
  • ソースコードを自分なりに変更した
  • 知人に聞いた
  • その他
上記の詳細・結果

エラーが出て終了してしまう。

補足

特になし

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問