質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.91%

python3で非同期スクレイピングがしたいけど非同期がよくわからない

解決済

回答 2

投稿

  • 評価
  • クリップ 1
  • VIEW 4,672

kurosuke___

score 213

 概要

  • スクレイピングはBeautifulSoup4
  • async, await がよく分かってない
  • どうやらurllib.requestのurlopenは同期処理?なのでaiohttpを使うのかな?

 やりたいこと

たとえば、ユニークなドメインのURLが10個あって、すべてのURLからbodyタグ内を引っ張ってきたいとしたとき。

一つのURLに対してのリクエストは一回だけなので、10個のURLを1個ずつ処理するより並列でそれぞれ処理(HTTPリクエスト?)したほうが、取得する順番はどうでもいいですし、処理にかかる時間を相当短縮できるのでは?と思ったわけです。
(全然並列処理について分かってないのでトンチンカンなこと言ってたら叱ってください)

ここ2日ほどGoogle先生やQiitaで調べまくってみましたが、色々な書き方や事例がありすぎていまいちよく分かってません・・・
(単に頭が弱いというのが一番かもしれないですが)

拾ってきたコードをデバッグして処理を追ってみたりしましたが、あまり効果はなかったようです。

というわけで、複数のURLを1つずつではなく、いっぺんに処理がしたい。というのが私の願望でございます。

 教えてください

  • 超個人的にはPython3.5からのasync/awaitを使用していきたい(使い方分かってないけど...)です

  • async/awaitの使い方を含めて、上記のような非同期スクレイピングをするにはどういったコードを書くのが良いでしょうか?

  • とにかく複数のURLを1つずつではなく、いっぺんに処理がしたい。ので、なんでも構いません、なにか方法を教えてください。

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+3

目的は10並列程度の並列処理のようなので非同期処理を手段にする必要性はあまりないと私は思います。非同期処理を使用すればシングルスレッドで効率的な処理が実現できるという側面もありますが、取っ付きやすさの面からスレッドで処理の多重度を上げる方法を提案します。スレッドでの実現方法も色々とありますがconcurrent.futures.ThreadPoolExecutorが一押しです。以下がrequestsモジュールを使用して複数回ググるサンプルです。

from concurrent.futures import ThreadPoolExecutor
import requests


urls = [
    'https://google.com/?q=python',
    'https://google.com/?q=teratail'
]
with ThreadPoolExecutor() as pool:
    for res in pool.map(requests.get, urls):
        print(res.status_code, 'url=', res.url)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/05/07 13:42

    回答ありがとうございます!
    なるほど、これはいいものですね。
    ただ、submitとmapの違いがわかりません。
    どういったように使い分けるのでしょうか?

    キャンセル

  • 2017/05/07 15:47

    submitは一個ずつタスクを登録する、結果の取得は自分で面倒をみるという感じです。一方、mapは一括でタスクを登録して終わったものから結果を取得する感じです。

    キャンセル

  • 2017/05/07 21:37

    なるほど、mapのほうがよしなにしてくれていい感じですね。
    メリット・デメリット有るかと思いますが、現状「とっつきやすさ」が貢献して、とりあえずやりたいことができそうなので、こちらを使ってみることにします。
    ありがとうございました!

    キャンセル

+2

ドンピシャの記事ありましたよ↓

Python3.5のasync/awaitを使ってスクレイピング - Qiita

既にある回答のとおりスレッドプールを使う手もあるのですが,async/awaitを使えば1スレッドだけで完結するのでCPUには優しいです。HTTPリクエストに関してはボトルネックのほとんどが待ち時間なので,1スレッドのほうが適役です。


【蛇足】

上記の記事で

デコレータと yield from でやってたやつになんかそれっぽい構文が出来たよっていう感じにしか見えない。

という言及がありますが,これはPythonだけに限らず,例えばJavaScriptに関しても同じようなことがいえますね。もとはジェネレータを目的外使用することで無理やり実現していたけど,やっぱり何か違うので専用構文を用意しよう,という流れです。

JavaScriptは如何にしてAsync/Awaitを獲得したのか Qiita版 - Qiita

PHPに関してはまだ残念ながらジェネレータでしかそれっぽいことはできません。

mpyw/co: Asynchronous cURL executor simply based on resource and Generator.

PHPの派生のHack/HHVMはasync/awaitを言語レベルで持っています。

Async: Introduction

以上,蛇足でした…

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/05/07 16:33 編集

    async/awaitに関しては蛇足で挙げたJavaScriptに関する記事が参考になると思います。Pythonにおいては,async関数の返り値はPromiseではなく単なるCoroutineオブジェクト(「並行処理目的のGenerator」と同義)であり,thenメソッドなどは持っていませんが,await対象に取れるという点では同じです。

    キャンセル

  • 2017/05/07 21:33

    回答ありがとうございます!
    ご提示いただいた記事はすでに読ませていただいておりましたが、今の私ではやはり難しい内容でした・・・
    YouheiSakuraiさんにご提案いただいたThreadPoolExcecutorは割りととっつきやすいので、まずはそちらをすんなりかけるように理解できてから、async/awaitに挑戦したいと思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.91%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る