質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

421閲覧

poolによるurlのリスト、スクレイピングの関数を並列処理させる方法

youri0326

総合スコア22

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/01/21 10:39

複数のページから取得した値をcsvファイルへ出力する関数を作成しました。

『複数のページのURLをまとめたlist』をall_urls
『値の取得、list(csv_list)へ代入する関数』をscrapeとし、
poolにより並列処理(pool(scrape,all_urls))を行いたいと思いますが、上手く稼動しません。並列処理をしなければ上手く稼動します。

稼動させる方法についてご教示いただけたら幸いです。

python

1import requests 2from bs4 import BeautifulSoup 3import xlrd 4import openpyxl 5import time 6import pandas as pd 7from multiprocessing import Pool,cpu_count 8 9all_urls = ['https://domain.com/a','https://domain.com/b','https://domain.com/c','https://domain.com/d'] 10 11csv_list = [] 12 13def scrape(url): 14 time.sleep(1) 15 response = requests.get(url) 16 response.encoding = response.apparent_encoding 17 soup = BeautifulSoup(response.text, 'html.parser') 18 atag = soup.find('span',{"class":"A"}) 19 answer = atag.text if atag else 'none' 20 csv_list.append(answer) 21 22if __name__ == "__main__": 23 n = cpu_count() 24 p = Pool(n) 25 p.map_async(scrape,all_urls) 26 p.terminate() 27 p.join() 28 29df = pd.DataFrame(csv_list) 30df.to_csv('Downloads/test.csv',encoding = 'utf-8-sig')

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

forkした先のプロセスでcsv_listに追加されているでしょうが、Pool.map_asyncの呼び出し元には影響しないのです。返り値として情報を返す工夫が要ります。

とはいえ、そもそもスクレイピングでプロセスまで立てて並列化したい理由がよくわかりません。高速化目的であれば相手先サーバに迷惑がかかりますし、複数のサイトを同時に叩きたいのなら(そういうケースではなさそうですが)スレッドで十分です。

投稿2019/01/21 11:40

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

youri0326

2019/01/21 16:09

ご丁寧にご回答いただきありがとうございます。ご指摘いただいた通りのことを試みてみます。
hayataka2049

2019/01/22 00:07

並列処理しなくてもループで十分では?
youri0326

2019/01/24 15:51

ループでも試してみます。ご指摘ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問