トップ並列処理に関する質問 Pythonのasyncioで並行処理(ダウンロードと処理)させたいです

編集履歴

回答編集履歴

修正

2020/08/06 22:28

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -44,7 +44,6 @@
 process_time = time.time() - start
 print(process_time)
 ```
-以上です。
 　比較として別途[aiohttpをrequestsに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。

修正

2020/08/06 22:28

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -9,7 +9,7 @@
 async def download(url, session):
   print("download start")
   s = await session.get(url)
-  await asyncio.sleep(0)
+  # await asyncio.sleep(0)  # この行はrequestsバージョンでは必要
   sentence = await s.text() # requestsでは.textだが、aiohtttpは.text()
   print(f"download {url} completed!")
   return sentence

修正

2020/08/06 17:43

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -10,7 +10,7 @@
   print("download start")
   s = await session.get(url)
   await asyncio.sleep(0)
-  sentence = await s.text()
+  sentence = await s.text() # requestsでは.textだが、aiohtttpは.text()
   print(f"download {url} completed!")
   return sentence

修正

2020/08/06 17:24

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -45,18 +45,27 @@
 print(process_time)
 ```
 以上です。
-比較として別途[aiohttpをrequestsに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
-ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用している上記のコードの方が早く完了すると思います。（requestsの方はダウンロードごとにブロックされており並行処理になっていないため時間がかかる）
+　比較として別途[aiohttpをrequestsに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
+　ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用している上記のコードの方が早く完了すると思います。（requestsの方はダウンロードごとにブロックされており並行処理になっていないため時間がかかる）
 [補足1]
-上記では、ダウンロードの並行性だけを見るため、 async def text_preprocess(sentence):内のsleepをコメント化しています。
+　上記では、ダウンロードの並行性だけを見るため、 async def text_preprocess(sentence):内のsleepをコメント化しています。
-text_preprocess処理の並行性も見る場合は、async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行してみてください。、
+　text_preprocess処理の並行性も見る場合は、async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行してみてください。
 ３つのランダムスリープ時間の「合計」ではなく、３つのうちの最大時間までしかウェイトされないことがわかると思います。
-ただし、text_preprocess内のasyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
+　ただし、text_preprocess内のasyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
-ネットワーク通信やデータベース処理、ファイル処理等のI/Oバウンドではなく、たとえばBeautifulSoupによるタグ検索等単純にCPUの計算負荷がかかるような処理については、multiprocessを使った方がいいです。
+ネットワーク通信やデータベース処理、ファイル処理等のI/Oバウンドではなく、たとえばBeautifulSoupによるタグ検索等単純にCPUの計算負荷がかかるような処理については、multiprocessを使った方が効果が出ると思います。
 [補足2]
-requestsとrun_in_executorを使う方法もありますが、イベントループやマルチスレッド寄りの話になるので割愛しました。
+requestsとrun_in_executorを使う方法もありますが、イベントループやマルチスレッド寄りの話になるので割愛しました。
+参考：
+[asyncio --- 非同期 I/O](https://docs.python.org/ja/3/library/asyncio.html)
+[aiohttp documentation](https://docs.aiohttp.org/en/stable/)

修正

2020/08/06 17:22

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -18,8 +18,8 @@
 async def text_preprocess(sentence):
   # 下記は時間がかかる処理を想定
   a = random.randint(0,6)
-  print(f"wait for {a} sec")
+  print(f"processing for {a} sec")
-  # await asyncio.sleep(a)  # ダウンロード処理時間だけ見たい場合、ここはコメント化
+  # await asyncio.sleep(a)  # ダウンロード処理時間だけ見たい場合、ここはコメントにする
   return a
 async def download_and_preprocess(url, session):
@@ -45,17 +45,18 @@
 print(process_time)
 ```
 以上です。
-比較として別途[aiohttpをrequestに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
+比較として別途[aiohttpをrequestsに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
 ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用している上記のコードの方が早く完了すると思います。（requestsの方はダウンロードごとにブロックされており並行処理になっていないため時間がかかる）
-[補足]
+[補足1]
-なお、上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たかったからです。
+上記では、ダウンロードの並行性だけを見るため、 async def text_preprocess(sentence):内のsleepをコメント化しています。
+text_preprocess処理の並行性も見る場合は、async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行してみてください。、
+３つのランダムスリープ時間の「合計」ではなく、３つのうちの最大時間までしかウェイトされないことがわかると思います。
-async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行した場合、
-ダウンロード時間＋「３つのランダムスリープ時間の合計時間ではなく、３つのうちの最大時間」までしかウェイトされないことがわかると思います。
-（もちろん、asyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
+ただし、text_preprocess内のasyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
-処理がネットワーク通信やファイル処理等のI/OバウンドではなくCPUに計算負荷がかかるような場合は、その部分はmultiprocessを使った方がいいです。）
+ネットワーク通信やデータベース処理、ファイル処理等のI/Oバウンドではなく、たとえばBeautifulSoupによるタグ検索等単純にCPUの計算負荷がかかるような処理については、multiprocessを使った方がいいです。
+[補足2]
-なお、run_in_executorを使う方法もあるかもしれませんが、これだとマルチスレッドの話になると思ったので割愛しました。
+requestsとrun_in_executorを使う方法もありますが、イベントループやマルチスレッド寄りの話になるので割愛しました。

修正

2020/08/06 17:17

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -45,7 +45,7 @@
 print(process_time)
 ```
 以上です。
-比較として別途[aiohttpではなくrequestを使った場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
+比較として別途[aiohttpをrequestに単純に置き換えた場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
 ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用している上記のコードの方が早く完了すると思います。（requestsの方はダウンロードごとにブロックされており並行処理になっていないため時間がかかる）

修正

2020/08/06 16:16

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -54,8 +54,7 @@
 なお、上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たかったからです。
 async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行した場合、
-ダウンロード時間＋「３つのランダムスリープ時間の合計時間ではなく、３つのうちの最大時間」までしかウェイトされないことがわかると思います。（並行処理されているから）
+ダウンロード時間＋「３つのランダムスリープ時間の合計時間ではなく、３つのうちの最大時間」までしかウェイトされないことがわかると思います。
 （もちろん、asyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
 処理がネットワーク通信やファイル処理等のI/OバウンドではなくCPUに計算負荷がかかるような場合は、その部分はmultiprocessを使った方がいいです。）

修正

2020/08/06 15:26

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -44,13 +44,12 @@
 process_time = time.time() - start
 print(process_time)
 ```
+以上です。
+比較として別途[aiohttpではなくrequestを使った場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しましたので、これを実行した場合の時間と比べてみてください。
+ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用している上記のコードの方が早く完了すると思います。（requestsの方はダウンロードごとにブロックされており並行処理になっていないため時間がかかる）
-[aiohttpではなくrequestを使った場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しました。
-これを実行した場合の完了まで時間と比較してみてください。
-ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用しているコードの方が早く完了することがわかると思います。
 [補足]
 なお、上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たかったからです。

修正

2020/08/06 15:25

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -1,5 +1,4 @@
-requestsモジュールを使う場合、asyncioだけで期待した動作をさせるのは困難です。
-代わりに非同期通信に対応したライブラリであるaiohttpを使う方法があります。
+requestsモジュールの代わりに非同期通信に対応したライブラリであるaiohttpを使う方法があります。
 ```
 import asyncio
 import time

修正

2020/08/06 15:17

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -49,14 +49,15 @@
 [aiohttpではなくrequestを使った場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しました。
 これを実行した場合の完了まで時間と比較してみてください。
-ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用した方が早く完了することがわかると思います。
+ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用しているコードの方が早く完了することがわかると思います。
+[補足]
 なお、上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たかったからです。
 async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行した場合、
-ダウンロード時間＋「３つのランダムスリープ時間の最大」までしかウェイトされないことがわかると思います。
+ダウンロード時間＋「３つのランダムスリープ時間の合計時間ではなく、３つのうちの最大時間」までしかウェイトされないことがわかると思います。（並行処理されているから）
 （もちろん、asyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
 処理がネットワーク通信やファイル処理等のI/OバウンドではなくCPUに計算負荷がかかるような場合は、その部分はmultiprocessを使った方がいいです。）

修正・追加

2020/08/06 15:15

投稿

kotori_a

スコア898

answer CHANGED Viewed

@@ -46,8 +46,18 @@
 print(process_time)
 ```
+[aiohttpではなくrequestを使った場合のコード](https://gist.github.com/taizan-hokuto/5b9075f01b6a87bc0110c88cb7eac6c0)を用意しました。
+これを実行した場合の完了まで時間と比較してみてください。
+ネットワーク状態にもよるかもしれませんが、おおむね、aiohttpを使用した方が早く完了することがわかると思います。
-上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たいからです。
+なお、上記で  async def text_preprocess(sentence):内のsleepをコメント化しているのは、ダウンロードの並行性だけ見たかったからです。
-async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトしてテストした場合でも、
+async def text_preprocess(sentence):　内のコメント部分行（sleep）をコメントアウトして実行した場合、
 ダウンロード時間＋「３つのランダムスリープ時間の最大」までしかウェイトされないことがわかると思います。
 （もちろん、asyncio.sleep()部分を実際の処理に置き換える場合、その処理自体がノンブロッキングでなければasyncioのメリットは享受できません。
-処理がネットワーク通信やファイル処理等のI/OバウンドではなくCPUに計算負荷がかかるような場合は、その部分はmultiprocessを使った方がいいです。）
+処理がネットワーク通信やファイル処理等のI/OバウンドではなくCPUに計算負荷がかかるような場合は、その部分はmultiprocessを使った方がいいです。）
+なお、run_in_executorを使う方法もあるかもしれませんが、これだとマルチスレッドの話になると思ったので割愛しました。