質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

並列処理

複数の計算が同時に実行される手法

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

Q&A

解決済

3回答

672閲覧

tbbライブラリによる並列計算の方法(c++)

kingg

総合スコア11

C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

並列処理

複数の計算が同時に実行される手法

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

0グッド

1クリップ

投稿2018/01/12 08:08

編集2018/01/12 09:41

###前提・実現したいこと
Intelのtbbライブラリによる並列化方法について(c++)

tbbライブラリのparallel_for関数を使って並列計算をしたいのですが上手くいきません。
言語はc++ですが普段はc言語をメインとしており、クラスなどの知識は少ないです。
なぜこの問題が起きるのか教えてください。
またtbb::blocked_range等の関数が必要になるのならば、その使い方についても教えていただけると嬉しいです。
(理想は下のコードの様にクラスを使わずに並列計算を行いたいです)
よろしくお願いします。

###発生している問題
実行ごとに結果が変わってしまう
1回目の結果一部
1095.04
1027.97
1043.29

2回目の結果一部
1095.04
1016.81
946.124

###該当のソースコード
#include <stdio.h>
#include <math.h>
#include <iostream>
#include <tbb/tbb.h>
#include <tbb/parallel_for.h>

using namespace std;

float calc_distance(int *data, int *center){
int i;
float dist = 0;
tbb::parallel_for(0, 128, [&](int i){
dist += (data[i] - center[i]) * (data[i] - center[i]);
});
dist = sqrt(dist);

return dist;
}

int main(int argc, char* argv[]) {
int i,j;
FILE *fp;
fp = fopen(argv[1], "r");

int feature_num;
fread(&feature_num, sizeof(int), 1, fp);

int data[feature_num][128];
for(i = 0; i < feature_num; i++)
for(j = 0; j < 128; j++) fread(&data[i][j], sizeof(int), 1, fp);

for(i = 0; i < feature_num - 1; i++)
cout << calc_distance(data[i], data[i + 1]) << endl;

fclose(fp);
return 0;
}

これはファイルからデータを読み込み2次元配列に格納した後、それらの距離を求めて表示するプログラムです。
なお、読み込みを行うファイルには以下のように0~255の範囲の整数がfeature_num * 128個入っています。
(一番初めの値はfeature_num)
1196 97 90 87 78 57 59 ・・・

###試したこと
該当箇所を以下のように変えてみましたが駄目でした。(今起きている問題とは関係がない?)
tbb::parallel_for(tbb::blocked_range(0, 128), [&](tbb::blocked_range<int> range){
for(i = range.begin(); i < range.end(); i++)

###補足情報(言語/FW/ツール等のバージョンなど)
言語:c++
OS:ubuntu16.04
サンプルファイルへのリンク

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

m_yoko

2018/01/12 08:44

デバッグして検証するため、その読み込むファイルのサンプルを頂けるとありがたいです。
guest

回答3

0

ベストアンサー

parallel_reduceでおためし。

C++

1#include <tbb/tbb.h> 2#include <cmath> 3#include <iostream> 4#include <algorithm> 5#include <random> 6 7int main() { 8 using namespace std; 9 10 const int N = 1000; 11 int data[N]; 12 int center[N]; 13 14 mt19937 gen; 15 uniform_int_distribution<int> dist(-3,3); 16 generate_n(data, N, [&]() { return dist(gen); }); 17 generate_n(center, N, [&]() { return dist(gen); }); 18 19 // serial 20 { 21 float dist = 0.0f; 22 for ( int i = 0; i < N; ++i ) { 23 dist += (data[i]-center[i])*(data[i]-center[i]); 24 } 25 cout << sqrt(dist) << endl; 26 } 27 28 // parallel 29 { 30 float dist = tbb::parallel_reduce( 31 tbb::blocked_range<int>(0, N), 32 0.0, 33 [&](tbb::blocked_range<int> range, float val) -> float{ 34 for(int i = range.begin(); i < range.end(); i++ ) { 35 val += (data[i] - center[i]) * (data[i] - center[i]); 36 } 37 return val; 38 }, 39 [](float x, float y) { return x + y; } 40 ); 41 cout << sqrt(dist) << endl; 42 } 43}

投稿2018/01/12 13:37

episteme

総合スコア16614

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kingg

2018/01/12 14:57

正常に動作しました。 いまいちメソッド等の概念が分かっていないのですが、[](float x, float y) {return x + y; } はスレッドごとに計算されたvalの値を足すという処理ですか。(これもラムダ式?) y += x(xは各スレッドのvalに対応し、yはdistに対応)という認識で合っていますか。
episteme

2018/01/12 15:31

だいたいあってる。各スレッドで求めた部分和を そのlambdaで足し合わせてます。
kingg

2018/01/13 12:00

回答ありがとうございました。 問題を解決させて下さったのでベストアンサーにさせていただきます。
guest

0

TBBはよく知らないんですが、間違っているのはすぐにわかります。
本来スレッドの数だけdistが必要で、最後にそれらを合計しないといけません。
ドキュメントをみると、parallel_reduceという関数があるようなので
それを使えばよいと思います。

投稿2018/01/12 10:11

colonq

総合スコア88

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kingg

2018/01/12 12:53

きっと同じ場所にアクセスしていたため駄目だったんですね。 イメージとしてはfloat dist[スレッド数]と宣言し、計算した後に各要素の総和を取るという感じでしょうか。 parallel_reduce関数をググって出てきたサイトのサンプルコードを参考に使ってみたのですが上手くいきません。 m_yokoさん(別の回答者の方)にもお願いしているんですが、何が駄目なのか少し考えていただけると有難いです。変更箇所を下に載せておきます。(calc_distance関数だけです) float calc_distance(int *data, int *center){ int i; float dist = 0; float total = tbb::parallel_reduce(tbb::blocked_range<int>(0, 128), 0.0, [&](tbb::blocked_range<int> range, float dist) -> float{ for(i = range.begin(); i < range.end(); i++){ dist += (data[i] - center[i]) * (data[i] - center[i]); } return dist; }, plus<float>(), tbb::auto_partitioner() ); total = sqrt(total); return total; }
colonq

2018/01/12 13:41

TBBはよくわかりませんが、おそらくparallel_reduceはスレッドの数だけ勝手に変数を作っているのではないかと思いますので、大体その解釈であっているかと。 ぱっと見、float dist = 0;は使っていません。ラムダの引数のdistは別の変数です。 [&data](tbb::blocked_range<int> range) -> float{ float dist = 0; for(i = range.begin(); i < range.end(); i++){ dist += (data[i] - center[i]) * (data[i] - center[i]); } return dist;} うちにはテストできる環境がないので実際に動くかどうかはわかりませんのであしからず。
colonq

2018/01/12 13:43

[&data, &center]ですね。すいません。
colonq

2018/01/12 13:46

それと、for(i は for (int i で。
kingg

2018/01/12 14:43

ラムダ式というものは新しく関数に近いものを定義しているんですね。 変更してコンパイルすると以下のエラーが出ました。 分野外のことを何度も聞いて申し訳ないですがお願いします。 /usr/include/tbb/parallel_reduce.h:322:36: error: no match for call to ‘(const calc_distance(int*, int*)::<lambda(tbb::blocked_range<int>)>) (tbb::blocked_range<int>&, const double&)’ my_value = my_real_body(range, const_cast<const Value&>(my_value)); ^ tbb.cpp:14:70: note: candidate: calc_distance(int*, int*)::<lambda(tbb::blocked_range<int>)> [&data, &center](tbb::blocked_range<int> range) -> float{ ^ tbb.cpp:14:70: note: candidate expects 1 argument, 2 provided
colonq

2018/01/13 09:39

エラーの内容は、ラムダの引数の数が足らんよってことです。 正解は、epistemeさんの言う通りですね。失礼しました。
kingg

2018/01/13 11:59

なるほど、勉強になったので全然問題ないです。 こまめに返信下さりありがとうございました。
guest

0

多分ですがここの処理が排他処理になっていないからだと思います。
tbbのparallel_forが自動で排他処理を行わない場合計算結果が不定になります。

C++

1dist += (data[i] - center[i]) * (data[i] - center[i]);

これの何が問題なのかというと、複数のスレッドでdistを書き換えるため、同時に読み込んで、ほぼ同時に書き込まれるとどちらかのデータが上書きされてしまいます。
私はOpenMPしか書いたことないためわからないですが、解決方法は2つあります。
1、排他処理を使う
2、distをスレッドごとに独立した変数にして、スレッドの計算終了時に足し合わせる。
1つ目ですが単純にtbbの排他処理をして、1つのスレッドで専有するようにしましょう。
もしかしたら単純な演算子(+=)だと排他処理のコストが少ない構文かなにかがあるかもしれません。(OpenMPではありました)
簡単ですが、読み込み書き込むたびに変数を専有するため並列化した意味がなくなるくらい遅くなると思います。
2つめですが、distをスレッドごとに宣言して、最後に足し合わせるときだけ合計の変数を排他処理にすると、排他処理を行う数はスレッドの数ですむため、排他処理のコストが低くなります。
tbbだとわからないですが、for文の最後に足し合わせるような構文があるはずです。
ググった感じだとparallel_reduceで足し合わせるような処理が出来るかなぁと。

投稿2018/01/12 09:21

m_yoko

総合スコア156

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kingg

2018/01/12 12:47 編集

1の排他処理については、他の演算でも並列処理を行おうと考えているので2の方法で試しました。 理解できているかの確認なんですが、スレッド数=CPUのコア数(8個)である。 forループの数>スレッド数(128>8)のため同時アクセスが起きてしまった。 実は別のデータ群(forループの数=4)に対して行った場合、実行ごとに結果が変わらなかったんです。 イメージとしてはfloat dist[スレッド数]と宣言し、計算した後に各要素の総和を取るという感じでしょうか。ここまでの理解で合っているかどうかお願いします。 またググった感じだと、parallel_reduceは配列で宣言しなくても上の処理を全てやってくれる便利な関数っぽいのですがサイトに載ってるサンプルコードを参考に変更しても上手くいきません。 tbbは触ったことがないということなので申し訳ないですが、何が駄目なのか少し考えていただけると有難いです。変更箇所を下に載せておきます。(calc_distance関数だけです) float calc_distance(int *data, int *center){ int i; float dist = 0; float total = tbb::parallel_reduce(tbb::blocked_range<int>(0, 128), 0.0, [&](tbb::blocked_range<int> range, float dist) -> float{ for(i = range.begin(); i < range.end(); i++){ dist += (data[i] - center[i]) * (data[i] - center[i]); } return dist; }, plus<float>(), tbb::auto_partitioner() ); total = sqrt(total); return total; }
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問