Pythonのマルチスレッド処理に関するエラー

前提・実現したいこと

データセットがキーのアルファベット記号と要素の数字からなる辞書型で与えられており、
数字はリストに格納されています。リストの長さはキーによって様々です。
各キーの要素の数字間でそれぞれ、たすき掛けで掛け算し、最も大きいものを採用した上で、
配列の長さで割った値を２つのキー間の値として出力します。

これを大規模なデータセットで実行することを実現したいです。
関連する前回の質問

発生している問題・エラーメッセージ

小規模なデータセットでは問題なく実行できますが、
このコードで、データセットのキーの数が大規模（例えば3万など）な場合、
１つのキーに対してたすき掛けの計算で比較する対象も膨大になるため、
現行のコードのまま実行すると膨大な時間がかかってしまいます。

そこで、並列処理を行うために、以下のコードを書いて、
辞書のキー別に平行で実行しようとしています。
現在のコードではキー別に実行する方法がわからないため、まず、全ての処理を３つのスレッドで平行して行う形式になっていますが、それでも以下のエラーが出てしまっている状況です。

#３つのスレッドで同じエラーが出ている状況です
Exception in thread Thread-8:
Traceback (most recent call last):
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 916, in _bootstrap_inner
    self.run()
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 864, in run
    self._target(*self._args, **self._kwargs)
TypeError: 'dict' object is not callable

Exception in thread Thread-6:
Traceback (most recent call last):
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 916, in _bootstrap_inner
    self.run()
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 864, in run
    self._target(*self._args, **self._kwargs)
TypeError: 'dict' object is not callable

Exception in thread Thread-7:
Traceback (most recent call last):
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 916, in _bootstrap_inner
    self.run()
  File "/Users/username/anaconda/lib/python3.6/threading.py", line 864, in run
    self._target(*self._args, **self._kwargs)
TypeError: 'dict' object is not callable

該当のソースコード

python
1def compute(data, output):
2    for alph, nums in data.items():
3        avg = {}
4        my_list = data[alph]
5        for target_alph, target_nums in data.items():
6            target_list = data[target_alph]
7            if alph == target_alph:
8                continue
9            max_nums = []
10
11            for i in my_list:
12                max_num = 0
13                for j in target_list:
14                    result = i * j
15                    if result is not None and result > max_num:
16                        max_num = result
17                max_nums.append(max_num) 
18            avg[target_alph] = sum(max_nums) / len(max_nums)
19            output[alph] = avg
20    return output
21    
22data = {
23    'A':[1, 3, 5, 2, 1, 8, 9],
24    'B':[9, 4, 3], 
25    'C':[8, 5, 5, 6, 1]
26}
27
28output = {}
29
30compute(data, output)
31
32thA = threading.Thread(target=compute(data, output)) #data['A']
33thB = threading.Thread(target=compute(data, output))#data['B']
34thC = threading.Thread(target=compute(data, output)) #data['C']
35
36thA.start(); print ('A started.')
37thB.start(); print ('B started.')
38thC.start(); print ('C started.')
39
40thA.join(); print ('A completed.')
41thB.join(); print ('B completed.')
42thC.join(); print ('C completed.')

試したこと

試したことは、関数化した計算部分のコードと並列処理に関する簡単なコードです。
これらを組み合わせる段階でつまづいています。

関数化した計算部分のコード

python
1def compute(data, output):
2    for alph, nums in data.items():
3        avg = {}
4        my_list = data[alph]
5        for target_alph, target_nums in data.items():
6            target_list = data[target_alph]
7            if alph == target_alph:
8                continue
9            max_nums = []
10
11            for i in my_list:
12                max_num = 0
13                for j in target_list:
14                    result = i * j
15                    if result is not None and result > max_num:
16                        max_num = result
17                max_nums.append(max_num) 
18            avg[target_alph] = sum(max_nums) / len(max_nums)
19            output[alph] = avg
20    return output
21    
22data = {
23    'A':[1, 3, 5, 2, 1, 8, 9],
24    'B':[9, 4, 3], 
25    'C':[8, 5, 5, 6, 1]
26}
27
28output = {}
29
30compute(data, output)

出力

{'A': {'B': 37.285714285714285, 'C': 33.142857142857146},
 'B': {'A': 48.0, 'C': 42.666666666666664},
 'C': {'A': 45.0, 'B': 45.0}}

並列処理に関する簡単なコード

python
1import threading
2 
3def compute():
4    x = 0
5    times = 2 ** 26
6    while x < times:
7        x += 1
8 
9th1 = threading.Thread(target=compute)
10th2 = threading.Thread(target=compute)
11
12th1.start(); print '1 started.'
13th2.start(); print '2 started.'
14
15th1.join(); print '1 completed.'
16th2.join(); print '2 completed.'

補足情報（FW/ツールのバージョンなど）

Python3.6

umyu

2018/09/01 02:35

Pythonのthreading.ThreadはIO律速な処理を高速化するためのものなので、今回のようなCPU律速の処理を行うにはmultiprocessing やconcurrent.futures.ProcessPoolExecutorを使ってくださいな。

行動規範の内容に同意します

回答1件

ベストアンサー

内容の是非や意味は無視して、出ているエラーについて回答しておきます。

threading.Threadのtargetにはcallable（関数オブジェクトなど）を渡す必要があります。

python
1threading.Thread(target=compute(data, output))

というコードは、compute(data, output)が評価されて結果の辞書になってtargetに渡されているので、無意味ですし間違っています。

引数を与えたければargsを使ってください。

python
1threading.Thread(target=compute, args=(data, output))

以前の質問でコードの改良案を回答しましたが、どうなったのでしょうか。

投稿2018/09/01 04:38

hayataka2049

総合スコア30939

退会済みユーザー

2018/09/24 03:36

以前、コードの改良案をご回答いただきましてありがとうございました。できる限り無駄を無くしたコードにしてもハードウェア側のスペックで計算が難しい状況です。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonのマルチスレッド処理に関するエラー

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問