質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • C

    3687questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • C++

    3450questions

    C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

  • Ubuntu

    1404questions

    Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

  • 並列処理

    39questions

    複数の計算が同時に実行される手法

tbbライブラリによる並列計算の方法(c++)

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 462

kingg

score 3

前提・実現したいこと

Intelのtbbライブラリによる並列化方法について(c++)

tbbライブラリのparallel_for関数を使って並列計算をしたいのですが上手くいきません。
言語はc++ですが普段はc言語をメインとしており、クラスなどの知識は少ないです。
なぜこの問題が起きるのか教えてください。
またtbb::blocked_range等の関数が必要になるのならば、その使い方についても教えていただけると嬉しいです。
(理想は下のコードの様にクラスを使わずに並列計算を行いたいです)
よろしくお願いします。

発生している問題

実行ごとに結果が変わってしまう
1回目の結果一部
1095.04
1027.97
1043.29

2回目の結果一部
1095.04
1016.81
946.124

該当のソースコード

include <stdio.h>

include <math.h>

include <iostream>

include <tbb/tbb.h>

include <tbb/parallel_for.h>

using namespace std;

float calc_distance(int *data, int *center){
int i;
float dist = 0;
tbb::parallel_for(0, 128, [&](int i){
dist += (data[i] - center[i]) * (data[i] - center[i]);
});
dist = sqrt(dist);

return dist;
}

int main(int argc, char* argv[]) {
int i,j;
FILE *fp;
fp = fopen(argv[1], "r");

int feature_num;
fread(&feature_num, sizeof(int), 1, fp);

int data[feature_num][128];
for(i = 0; i < feature_num; i++)
for(j = 0; j < 128; j++) fread(&data[i][j], sizeof(int), 1, fp);

for(i = 0; i < feature_num - 1; i++)
cout << calc_distance(data[i], data[i + 1]) << endl;

fclose(fp);
return 0;
}

これはファイルからデータを読み込み2次元配列に格納した後、それらの距離を求めて表示するプログラムです。
なお、読み込みを行うファイルには以下のように0~255の範囲の整数がfeature_num * 128個入っています。
(一番初めの値はfeature_num)
1196 97 90 87 78 57 59 ・・・

試したこと

該当箇所を以下のように変えてみましたが駄目でした。(今起きている問題とは関係がない?)
tbb::parallel_for(tbb::blocked_range(0, 128), [&](tbb::blocked_range<int> range){
for(i = range.begin(); i < range.end(); i++)

補足情報(言語/FW/ツール等のバージョンなど)

言語:c++
OS:ubuntu16.04
サンプルファイルへのリンク

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • m_yoko

    2018/01/12 17:44

    デバッグして検証するため、その読み込むファイルのサンプルを頂けるとありがたいです。

    キャンセル

回答 3

checkベストアンサー

+2

parallel_reduceでおためし。

#include <tbb/tbb.h>
#include <cmath>
#include <iostream>
#include <algorithm>
#include <random>

int main() {
  using namespace std;

  const int N = 1000;
  int data[N];
  int center[N];

  mt19937 gen;
  uniform_int_distribution<int> dist(-3,3);
  generate_n(data, N, [&]() { return dist(gen); });
  generate_n(center, N, [&]() { return dist(gen); });

  // serial
  {
    float dist = 0.0f;
    for ( int i = 0; i < N; ++i ) {
      dist += (data[i]-center[i])*(data[i]-center[i]);
    }
    cout << sqrt(dist) << endl;
  }

  // parallel
  {
    float dist = tbb::parallel_reduce(
      tbb::blocked_range<int>(0, N),
      0.0, 
      [&](tbb::blocked_range<int> range, float val) -> float{
        for(int i = range.begin(); i < range.end(); i++ ) {
          val += (data[i] - center[i]) * (data[i] - center[i]);
        }
        return val;
      },
      [](float x, float y) { return x + y; }
    );
    cout << sqrt(dist) << endl;
  }
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/12 23:57

    正常に動作しました。
    いまいちメソッド等の概念が分かっていないのですが、[](float x, float y) {return x + y; }
    はスレッドごとに計算されたvalの値を足すという処理ですか。(これもラムダ式?)
    y += x(xは各スレッドのvalに対応し、yはdistに対応)という認識で合っていますか。

    キャンセル

  • 2018/01/13 00:31

    だいたいあってる。各スレッドで求めた部分和を そのlambdaで足し合わせてます。

    キャンセル

  • 2018/01/13 21:00

    回答ありがとうございました。
    問題を解決させて下さったのでベストアンサーにさせていただきます。

    キャンセル

+1

多分ですがここの処理が排他処理になっていないからだと思います。
tbbのparallel_forが自動で排他処理を行わない場合計算結果が不定になります。

dist += (data[i] - center[i]) * (data[i] - center[i]);


これの何が問題なのかというと、複数のスレッドでdistを書き換えるため、同時に読み込んで、ほぼ同時に書き込まれるとどちらかのデータが上書きされてしまいます。
私はOpenMPしか書いたことないためわからないですが、解決方法は2つあります。
1、排他処理を使う
2、distをスレッドごとに独立した変数にして、スレッドの計算終了時に足し合わせる。
1つ目ですが単純にtbbの排他処理をして、1つのスレッドで専有するようにしましょう。
もしかしたら単純な演算子(+=)だと排他処理のコストが少ない構文かなにかがあるかもしれません。(OpenMPではありました)
簡単ですが、読み込み書き込むたびに変数を専有するため並列化した意味がなくなるくらい遅くなると思います。
2つめですが、distをスレッドごとに宣言して、最後に足し合わせるときだけ合計の変数を排他処理にすると、排他処理を行う数はスレッドの数ですむため、排他処理のコストが低くなります。
tbbだとわからないですが、for文の最後に足し合わせるような構文があるはずです。
ググった感じだとparallel_reduceで足し合わせるような処理が出来るかなぁと。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/12 20:47 編集

    1の排他処理については、他の演算でも並列処理を行おうと考えているので2の方法で試しました。
    理解できているかの確認なんですが、スレッド数=CPUのコア数(8個)である。
    forループの数>スレッド数(128>8)のため同時アクセスが起きてしまった。
    実は別のデータ群(forループの数=4)に対して行った場合、実行ごとに結果が変わらなかったんです。
    イメージとしてはfloat dist[スレッド数]と宣言し、計算した後に各要素の総和を取るという感じでしょうか。ここまでの理解で合っているかどうかお願いします。

    またググった感じだと、parallel_reduceは配列で宣言しなくても上の処理を全てやってくれる便利な関数っぽいのですがサイトに載ってるサンプルコードを参考に変更しても上手くいきません。
    tbbは触ったことがないということなので申し訳ないですが、何が駄目なのか少し考えていただけると有難いです。変更箇所を下に載せておきます。(calc_distance関数だけです)
    float calc_distance(int *data, int *center){
    int i;
    float dist = 0;
    float total = tbb::parallel_reduce(tbb::blocked_range<int>(0, 128), 0.0, [&](tbb::blocked_range<int> range, float dist) -> float{
    for(i = range.begin(); i < range.end(); i++){
    dist += (data[i] - center[i]) * (data[i] - center[i]);
    }
    return dist;
    }, plus<float>(), tbb::auto_partitioner() );
    total = sqrt(total);

    return total;
    }

    キャンセル

+1

TBBはよく知らないんですが、間違っているのはすぐにわかります。
本来スレッドの数だけdistが必要で、最後にそれらを合計しないといけません。
ドキュメントをみると、parallel_reduceという関数があるようなので
それを使えばよいと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/12 21:53

    きっと同じ場所にアクセスしていたため駄目だったんですね。
    イメージとしてはfloat dist[スレッド数]と宣言し、計算した後に各要素の総和を取るという感じでしょうか。

    parallel_reduce関数をググって出てきたサイトのサンプルコードを参考に使ってみたのですが上手くいきません。
    m_yokoさん(別の回答者の方)にもお願いしているんですが、何が駄目なのか少し考えていただけると有難いです。変更箇所を下に載せておきます。(calc_distance関数だけです)
    float calc_distance(int *data, int *center){
    int i;
    float dist = 0;
    float total = tbb::parallel_reduce(tbb::blocked_range<int>(0, 128), 0.0, [&](tbb::blocked_range<int> range, float dist) -> float{
    for(i = range.begin(); i < range.end(); i++){
    dist += (data[i] - center[i]) * (data[i] - center[i]);
    }
    return dist;
    }, plus<float>(), tbb::auto_partitioner() );
    total = sqrt(total);

    return total;
    }

    キャンセル

  • 2018/01/12 22:41

    TBBはよくわかりませんが、おそらくparallel_reduceはスレッドの数だけ勝手に変数を作っているのではないかと思いますので、大体その解釈であっているかと。
    ぱっと見、float dist = 0;は使っていません。ラムダの引数のdistは別の変数です。
    [&data](tbb::blocked_range<int> range) -> float{
    float dist = 0;
    for(i = range.begin(); i < range.end(); i++){
    dist += (data[i] - center[i]) * (data[i] - center[i]);
    }
    return dist;}
    うちにはテストできる環境がないので実際に動くかどうかはわかりませんのであしからず。

    キャンセル

  • 2018/01/12 22:43

    [&data, &center]ですね。すいません。

    キャンセル

  • 2018/01/12 22:46

    それと、for(i は for (int i で。

    キャンセル

  • 2018/01/12 23:43

    ラムダ式というものは新しく関数に近いものを定義しているんですね。
    変更してコンパイルすると以下のエラーが出ました。
    分野外のことを何度も聞いて申し訳ないですがお願いします。

    /usr/include/tbb/parallel_reduce.h:322:36: error: no match for call to ‘(const calc_distance(int*, int*)::<lambda(tbb::blocked_range<int>)>) (tbb::blocked_range<int>&, const double&)’
    my_value = my_real_body(range, const_cast<const Value&>(my_value));
    ^
    tbb.cpp:14:70: note: candidate: calc_distance(int*, int*)::<lambda(tbb::blocked_range<int>)>
    [&data, &center](tbb::blocked_range<int> range) -> float{
    ^
    tbb.cpp:14:70: note: candidate expects 1 argument, 2 provided

    キャンセル

  • 2018/01/13 18:39

    エラーの内容は、ラムダの引数の数が足らんよってことです。
    正解は、epistemeさんの言う通りですね。失礼しました。

    キャンセル

  • 2018/01/13 20:59

    なるほど、勉強になったので全然問題ないです。
    こまめに返信下さりありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.51%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    英文ファイルを表示

    ある英文が与えられたファイルがあり,それを所有格や空白記号類を削除し単語一つ一つを改行して表示していくプログラムを考えています. 実行結果の例としては This is a pen.

  • 解決済

    iosアプリ(swift/Object-C)でデフォルトゲートウェイのIPアドレスを取得

    iPhone(ios)のアプリのプログラム(swift/Object-C)でデフォルトゲートウェイのIPアドレスを取得したいですが、やり方がわかりません。 色々調べてやってみ

  • 受付中

    過去のbestten を表示したいが表示はされるが完全な順序になっていない。

    実行結果が時間の短い順になっていない。大体は時間順になっています。 どこを直せばいいでしょうか。c言語でかいています。 構造体の定義や、名前のわかりにくさがありますが、とりあえずこ

  • 受付中

    プログラムを見やすく改良したい

    正常に動くプルグラムを見やすく改良したい。 具体的に教えていただければありがたいです。セグメンテーションフォルトでベスト7まで表示して停止します。173行あたりだと思うのですが、よ

  • 解決済

    C言語でわからないこと

    include <stdio.h> float calc(char op, float a, float b); main(){ float number; number 

  • 解決済

    あと少しなんですがうまくいきません、、、

    C C言語で 各学生の学籍番号・物理の点数・化学の点数の組がスペース区切りで一行に記述されたファイルを読み込み,全学生の物理の平均点・最高点・最低点,および化学の平均点・最高点・最

  • 解決済

    C⇒pythonへのコンバート方法について

     前提・実現したいこと Pyhton初心者です。 該当ソースは、C言語で作成されているのですが、pythonへコンバートした際の記述が不明な為、ご教授をお願いいたします。 主に「f

  • 解決済

    c言語 ファイルの読み込み

    初C言語で躓いてしまっており、 ソースコードもおかしな点があると思いますので、教えて頂ければと思います。  前提・実現したいこと test.cfgファイルにスペース区切りで2つ

同じタグがついた質問を見る

  • C

    3687questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • C++

    3450questions

    C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

  • Ubuntu

    1404questions

    Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

  • 並列処理

    39questions

    複数の計算が同時に実行される手法