質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.75%

  • C

    3455questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • GCC

    134questions

    GCCはGNU Compiler Collectionの略です。LinuxのC言語コンパイラのデファクトスタンダードであり、数多くの他言語やプラットフォームサポートもします。

  • 並列処理

    33questions

    複数の計算が同時に実行される手法

OpenMPによる並列化処理について

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 440

atnet

score 5

OpenMPによる並列化処理について質問させてください。

今開発をしているプログラムに、OpenMPによる並列化処理を組み込みたいと考えております。
まずはOpenMPによる並列処理がどのようなものなのか試してみようと、適当なコードをかいて実行してみたのですが、実行時間が縮まるどころかむしろ大きく伸びてしまいました。理由が何なのか自分では見当が付きません。

実行時間が縮まらない原因としてどのような要因が考えられるか、皆様の意見をお聞かせください。

実行環境
OS:Linux version 4.4.52-2vl6
コンパイラ:gcc version 4.9.3
CPU:Intel(R) Core(TM) i7-2600 CPU @ 3.40GHz

#include<stdio.h>
#include<time.h>

double X[100][100],T[100000];

int main(void){

  int i,j,k,t;
  double tp,tnp,rate;
  clock_t start,stop;

  t = 100;
  //並列化しなかった場合
  for(k=0;k<t;k++){
    start = clock();
    //適当な処理
    for(j=0;j<100;j++){
      for(i=0;i<100;i++){
        X[i][j] = (i+j)-i*j;
      }
    }
    //適当な処理
    stop = clock();
    T[k]=  stop-start;
  }
  //t回の平均をとる
  for(k=0;k<t;k++){
    tnp += T[k];
  }
  tnp /= t;
  //t回の平均をとる
  //並列化しなかった場合

  //並列化した場合
  for(k=0;k<t;k++){
    start = clock();
    //適当な処理
    #pragma omp parallel
    {
      #pragma omp for
      for(j=0;j<100;j++){
        for(i=0;i<100;i++){
          X[i][j] = (i+j)-i*j;
        }
      }
    }
    //適当な処理
    stop = clock();
    T[k]=  stop-start;
  }
  //t回の平均をとる
  for(k=0;k<t;k++){
    tp += T[k];
  }
  tp /= t;
  //t回の平均をとる
  //並列化した場合

  rate = tp/tnp;
  printf("not paralleled time = %f\n",tnp);
  printf("paralleled time = %f\n",tp);
  printf("rate = %f\n",rate);

  return 0;
}

コンパイル時のオプションを、-fopenmp とした場合、出力は以下のようでした。

not paralleled time = 70.170000
paralleled time = 690.490000
rate = 9.840245

また、コンパイル時にオプションをつけなかった場合、出力は以下のようでした。

not paralleled time = 80.800000
paralleled time = 39.160000
rate = 0.484653

(コンパイル時のオプションを、-fopenmp となかった場合、並列化処理の効果が出ているように思えるのですが、参考にしたサイトには「オプションを-fopenmp としなかった場合OpenMPによる並列化処理は行われない」とあり、そこでも悩んでいます。)

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

小さな問題が2つと、根本的な問題が1つあります。


根本的な問題:

まずはOpenMPによる並列処理がどのようなものなのか試してみようと、適当なコードをかいて実行してみたのですが、実行時間が縮まるどころかむしろ大きく伸びてしまいました。

並列処理は魔法ではありません。このようにマイロベンチマーク計測用の軽いタスクを並列処理しても、「並列化により得られる削減効果」よりも「並列化オーバヘッド による追加処理」が上回ってしまい、結果として「並列処理を行なったのに却って遅くなった」という事象に直面します。

OpenMPに限らず、どのような並列処理技術をもってしても並列化オーバーヘッドは必ず存在します。並列処理の効果を測定するには、あなたのプログラムが 実際に行う(もしくは処理負荷が近い) 計算処理タスクを対象とすべきです。


小さな問題2つ:

また、コンパイル時にオプションをつけなかった場合、出力は以下のようでした。
>(コンパイル時のオプションを、-fopenmp となかった場合、並列化処理の効果が出ているように思えるのですが、参考にしたサイトには「オプションを-fopenmp としなかった場合OpenMPによる並列化処理は行われない」とあり、そこでも悩んでいます。)

コンパイル時オプション -fopenmp を指定しなければ、あなたの期待通り OpenMPは無効化されます。つまり1回目と2回目の計測対象コードはいずれも逐次処理されます。

それでも結果が異なるように見えるのは、初回(〜数回目)の試行だけメモリアクセスが遅くなるためと考えられます。実際にT[k]の値を確認してみてください。一般に、複数回の計測を行うベンチマークでは「ウォームアップ(Warm-up)」が必要になります。これは近代的なコンピュータが持つメモリキャッシュ機構によるもので、同じメモリアクセスでも1回目と2回目以降のアクセス速度が異なる結果になることがよくあります。

#pragma omp for
for(j=0;j<100;j++){
 for(i=0;i<100;i++){
   X[i][j] = (i+j)-i*j;
 }
}

上記のコード片は変数iに関してデータ競合(data race)を引き起こすため、並列処理としては壊れています。OpenMPデフォルトでは変数を共有(shared)するため、ループカウンタ変数iが(変数jに関する)並列処理スレッド間で共有されてしまい、それぞれのスレッドで正しい処理が行われなくなります。

並列処理を正しく記述するのは非常に難しい(慣れていても間違う)ため、逐次処理結果と並列処理結果が同じになっているか、必ず確認することを強くおすすめします。

修正案1:

#pragma omp for private(i)
  // private節を明示
for(j=0;j<100;j++){
  for(i=0;i<100;i++){
     X[i][j] = (i+j)-i*j;
  }
}

修正案2:

#pragma omp for
for(j=0;j<100;j++){
  int i;  // ブロックスコープで変数宣言
  for(i=0;i<100;i++){
    X[i][j] = (i+j)-i*j;
  }
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/10/22 20:27

    非常にわかりやすい回答ありがとうございます。
    yohhoy様の回答を元に自分でもいろいろ勉強することができ、並列処理の仕組みやメモリキャッシュ機構の仕組みについて、簡単にですが理解することができました。
    ベンチマークの結果も当初期待していたような値になりました。
    ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.75%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • C

    3455questions

    C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

  • GCC

    134questions

    GCCはGNU Compiler Collectionの略です。LinuxのC言語コンパイラのデファクトスタンダードであり、数多くの他言語やプラットフォームサポートもします。

  • 並列処理

    33questions

    複数の計算が同時に実行される手法