poolによるurlのリスト、スクレイピングの関数を並列処理させる方法

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ Pythonに関する質問

Q&A

解決済

1回答

421閲覧

poolによるurlのリスト、スクレイピングの関数を並列処理させる方法

総合スコア22

0グッド

0クリップ

投稿2019/01/21 10:39

0

0

複数のページから取得した値をcsvファイルへ出力する関数を作成しました。

『複数のページのURLをまとめたlist』をall_urls
『値の取得、list(csv_list)へ代入する関数』をscrapeとし、
poolにより並列処理(pool(scrape,all_urls))を行いたいと思いますが、上手く稼動しません。並列処理をしなければ上手く稼動します。

稼動させる方法についてご教示いただけたら幸いです。

python
1import requests
2from bs4 import BeautifulSoup
3import xlrd
4import openpyxl
5import time
6import pandas as pd
7from multiprocessing import Pool,cpu_count
8
9all_urls = ['https://domain.com/a','https://domain.com/b','https://domain.com/c','https://domain.com/d']
10
11csv_list = []
12
13def scrape(url):
14    time.sleep(1)
15    response = requests.get(url)
16    response.encoding = response.apparent_encoding
17    soup = BeautifulSoup(response.text, 'html.parser')
18    atag = soup.find('span',{"class":"A"})
19    answer = atag.text if atag else 'none'
20    csv_list.append(answer)
21
22if __name__ == "__main__":
23    n = cpu_count()
24    p = Pool(n)
25    p.map_async(scrape,all_urls)
26    p.terminate()
27    p.join()
28
29df = pd.DataFrame(csv_list)
30df.to_csv('Downloads/test.csv',encoding = 'utf-8-sig')

行動規範の内容に同意します

回答1件

0

ベストアンサー

forkした先のプロセスでcsv_listに追加されているでしょうが、Pool.map_asyncの呼び出し元には影響しないのです。返り値として情報を返す工夫が要ります。

とはいえ、そもそもスクレイピングでプロセスまで立てて並列化したい理由がよくわかりません。高速化目的であれば相手先サーバに迷惑がかかりますし、複数のサイトを同時に叩きたいのなら（そういうケースではなさそうですが）スレッドで十分です。

投稿2019/01/21 11:40

総合スコア30933

2019/01/21 16:09

ご丁寧にご回答いただきありがとうございます。ご指摘いただいた通りのことを試みてみます。

2019/01/22 00:07

並列処理しなくてもループで十分では？

2019/01/24 15:51

ループでも試してみます。ご指摘ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Pythonに関する質問

poolによるurlのリスト、スクレイピングの関数を並列処理させる方法

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る