２次元配列によるシュトラッセンアルゴリズムの実装について

Question

こちらの質問をご覧頂きありがとうございます。 ###前提行列積計算の速度向上を目的に、シュトラッセンアルゴリズムの実装を行っています。現在のプログラムでは、シュトラッセンの関数（str）に入るたびに２重のポインタと逐次mallocを使うことで二次元配列を実現しています。 ###質問 mallocのメモリ確保・開放分の時間を削減するために、このプログラムを、２重ポインタから固定サイズの２次元配列で書き換え、実現することは可能でしょうか。ソースコードの方に現在の２重ポインタを使用したプログラムを添付します。ご回答の程よろしくお願いします。 ###ソースコード ```C #include #include #include #include #include #define BASE 2 void input(double **, double **, int n); void output(double **, int n); void str(double **, double **, double **, int n); void prod(double **, double **, double **, int n); double e_time(void); double t1, t2, t3 = 0, elapsed; int main(int argc, char *argv[]) { int i, j, n, size; double **A, **B, **C; if (argc <= 1) { fprintf(stderr, "error: argument which indicates the problem size is required. "); exit(1); } n = atoi(argv[1]); size = n + 1; /* Get the memory space for arrays A, B, C. */ A = (double **)malloc(size * sizeof(double *)); B = (double **)malloc(size * sizeof(double *)); C = (double **)malloc(size * sizeof(double *)); for (i = 1; i <= size; i++) { *(A + i) = (double *)malloc(size * sizeof(double)); *(B + i) = (double *)malloc(size * sizeof(double)); *(C + i) = (double *)malloc(size * sizeof(double)); } input(A, B, n); //reset vectors for(i = 1; i < size; i++) { for(j = 1; j < size; j++) { C[i][j] = 0.0; } } #ifdef DEBUG printf("A = "); output(A, n); printf("B = "); output(B, n); #endif t1 = e_time(); str(A, B, C, n); prod(A, B, C, n); t2 = e_time(); //elapsed = (t2 -t1) + t3; elapsed = t2 -t1; printf("t1:%f, t2:%f, elapsed:%f ", t1, t2, elapsed); printf("Performance : %f MFLOPS ", (2.0*size*size*size)/elapsed/1000000.0); #ifdef DEBUG printf("C = "); output(C, n); #endif for (i = 1; i <= size; i++) { free(*(A+i)); free(*(B+i)); free(*(C+i)); } free(A); free(B); free(C); return 0; } void input(double **A, double **B, int n) { int i, j; for (i = 1; i <= n; i++) { for (j = 1; j <= n; j++) { A[i][j] = (double)rand()/RAND_MAX; B[i][j] = (double)rand()/RAND_MAX; } } } void output(double **O, int n) { int i, j; for (i = 1; i <= n; i++) { for (j = 1; j <= n; j++) printf("%3.6f ", O[i][j]); printf(" "); } } void str(double **A, double **B, double **C, int n) { int i, j, mid, size; double **X, **Y, **M1, **M2, **M3, **M4, **M5, **M6, **M7; double t4, t5; if (n <= BASE) { t4 = e_time(); prod(A, B, C, n); t5 = e_time(); t3 += (t5 - t4); return; } mid = n / 2; /* Get the memory space for arrays X, Y, M1--M7 here. */ size = n + 1; X = (double **)malloc(size * sizeof(double *)); Y = (double **)malloc(size * sizeof(double *)); M1 = (double **)malloc(size * sizeof(double *)); M2 = (double **)malloc(size * sizeof(double *)); M3 = (double **)malloc(size * sizeof(double *)); M4 = (double **)malloc(size * sizeof(double *)); M5 = (double **)malloc(size * sizeof(double *)); M6 = (double **)malloc(size * sizeof(double *)); M7 = (double **)malloc(size * sizeof(double *)); for (i = 1; i <= mid; i++) { *(X+i) = (double *)malloc(size*sizeof(double)); *(Y+i) = (double *)malloc(size*sizeof(double)); *(M1+i) = (double *)malloc(size*sizeof(double)); *(M2+i) = (double *)malloc(size*sizeof(double)); *(M3+i) = (double *)malloc(size*sizeof(double)); *(M4+i) = (double *)malloc(size*sizeof(double)); *(M5+i) = (double *)malloc(size*sizeof(double)); *(M6+i) = (double *)malloc(size*sizeof(double)); *(M7+i) = (double *)malloc(size*sizeof(double)); } t4 = e_time(); /* Compute M1 */ for (i = 1; i <= mid; i++) for (j = 1; j <= mid; j++) { X[i][j] = A[i][mid+j] - A[mid+i][mid+j]; Y[i][j] = B[mid+i][j] + B[mid+i][mid+j]; } str(X,Y,M1,mid); /* Compute M2--M7 */ // M2 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[i][j] + A[mid+i][mid+j]; Y[i][j] = B[i][j] + B[mid+i][mid+j]; } } str(X,Y,M2,mid); // M3 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[i][j] - A[mid+i][j]; Y[i][j] = B[i][j] + B[i][mid+j]; } } str(X,Y,M3,mid); // M4 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[i][j] + A[i][mid+j]; Y[i][j] = B[mid+i][mid+j]; } } str(X,Y,M4,mid); // M5 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[i][j]; Y[i][j] = B[i][mid+j] - B[mid+i][mid+j]; } } str(X,Y,M5,mid); // M6 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[mid+i][mid+j]; Y[i][j] = B[mid+i][j] - B[i][j]; } } str(X,Y,M6,mid); // M7 for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { X[i][j] = A[mid+i][j] + A[mid+i][mid+j]; Y[i][j] = B[i][j]; } } str(X,Y,M7,mid); for (i = 1; i <= mid; i++) { for (j = 1; j <= mid; j++) { C[i][j] = M1[i][j]+M2[i][j]-M4[i][j]+M6[i][j]; /* C11 */ C[i][mid+j] = M4[i][j]+M5[i][j]; /* C12 */ C[mid+i][j] = M6[i][j]+M7[i][j]; /* C21 */ C[mid+i][mid+j] = M2[i][j]-M3[i][j]+M5[i][j]-M7[i][j]; /* C22 */ } } /* Free the memory space for X,Y,M1--M7 here */ for (i = 1; i <= mid; i++) { free(*(X+i)); free(*(Y+i)); free(*(M1+i)); free(*(M2+i)); free(*(M3+i)); free(*(M4+i)); free(*(M5+i)); free(*(M6+i)); free(*(M7+i)); } t5 = e_time(); t3 += t5 - t4; free(X); free(Y); free(M1); free(M2); free(M3); free(M4); free(M5); free(M6); free(M7); return; } /* The conventional O(n^3) matrix multiplication algorithm which is used to compute the product of two 2 by 2 matrices. */ void prod(double **A, double **B, double **C, int n) { int i, j, k; for (i = 1; i <= n; i++) for (j = 1; j <= n; j++) { C[i][j] = 0; for (k = 1; k <= n; k++) { C[i][j] = C[i][j] + A[i][k] * B[k][j]; } } } /*************************************************************/ /* functions related to time measurement */ /*************************************************************/ double e_time(void) { static struct timeval now; static struct timezone tz; gettimeofday(&now, &tz); return (double)(now.tv_sec + now.tv_usec/1000000.0); } ```

Accepted Answer

メモリの確保／解放を高速化する手法としては、最初にまとめて確保して領域を使い回す方法（メモリプール）がありますが、まじめに実装しようとすると手間がかかります。
実のところ、malloc/freeの中身はメモリプールの仕組みそのものなので、それなりに高速です。
ただ、汎用故のオーバーヘッドもあるので、とにかく高速に処理したいというのなら、自前で工夫するしかないですね。

ということで、ちょっとコードを追ってみたところ、どうやら最初に引数で渡したnの値で再起呼び出しの深さも確定するようです。これなら、あらかじめ再帰呼び出し分も含めて全てのメモリ領域を一括で確保し、領域を使い回すということができそうです。2次元配列をさらに配列で管理して、そのインデックスをスタックポインタのようにstr関数の入り口で上げて出口で下げるイメージです。

あと、コードに気になる点が一つ。
main関数内のメモリを確保／解放するところで
`for (i = 1; i <= size; i++)`
とやっていますが、正しくは
`for (i = 1; i < size; i++)`
ですね。

追記です。

２重ポインタから固定サイズの２次元配列で書き換え、実現することは可能でしょうか。
サイズがコマンドライン引数で渡されているので、固定サイズというのは無理な気がします。上記説明は、str関数の中でmalloc/freeが繰り返し実行されないようにするための一つの方法です。

なんだか面白そうだったので、実際に試してしまいました。

main関数に入る前のところに以下のコードを追加。

C
1struct Arrays
2{
3	double **X, **Y, **M1, **M2, **M3, **M4, **M5, **M6, **M7;
4};
5
6Arrays	*arrays;
7int		arrays_size;
8int		index = 0;

main関数のA,B,Cをmallocしているところの後ろあたりに以下のコードを追加。

C
1	arrays_size = 20;
2	arrays = (Arrays *)malloc(sizeof(Arrays) * arrays_size);
3	for(int ai = 0; ai < arrays_size; ai++)
4	{
5		Arrays *ptr = &arrays[ai];
6		ptr->X = (double **)malloc(size * sizeof(double *));
7		ptr->Y = (double **)malloc(size * sizeof(double *));
8		ptr->M1 = (double **)malloc(size * sizeof(double *));
9		ptr->M2 = (double **)malloc(size * sizeof(double *));
10		ptr->M3 = (double **)malloc(size * sizeof(double *));
11		ptr->M4 = (double **)malloc(size * sizeof(double *));
12		ptr->M5 = (double **)malloc(size * sizeof(double *));
13		ptr->M6 = (double **)malloc(size * sizeof(double *));
14		ptr->M7 = (double **)malloc(size * sizeof(double *));
15		for(i = 1; i < size; i++)
16		{
17			ptr->X[i] = (double *)malloc(size*sizeof(double));
18			ptr->Y[i] = (double *)malloc(size*sizeof(double));
19			ptr->M1[i] = (double *)malloc(size*sizeof(double));
20			ptr->M2[i] = (double *)malloc(size*sizeof(double));
21			ptr->M3[i] = (double *)malloc(size*sizeof(double));
22			ptr->M4[i] = (double *)malloc(size*sizeof(double));
23			ptr->M5[i] = (double *)malloc(size*sizeof(double));
24			ptr->M6[i] = (double *)malloc(size*sizeof(double));
25			ptr->M7[i] = (double *)malloc(size*sizeof(double));
26		}
27	}

arrays_size = 20;は本来であればちゃんと計算すべきでしょうけど、手抜きしました。nが100万くらいまではいけると思います。
あと、main関数から出るところでfreeしてあげてください。

str関数のif (n <= BASE)の処理の後ろ（mid = n / 2;の後ろあたり）に以下のコードを追加。

C
1	Arrays *ptr = &arrays[index];
2	index++;		// これ重要
3	X = ptr->X;
4	Y = ptr->Y;
5	M1 = ptr->M1;
6	M2 = ptr->M2;
7	M3 = ptr->M3;
8	M4 = ptr->M4;
9	M5 = ptr->M5;
10	M6 = ptr->M6;
11	M7 = ptr->M7;

str関数の最後

C
1	index--;	// これ重要
2	return;
3}

str関数内のmallocとfreeの部分は削除してしまってください。

手元の環境でコマンドライン引数を500で試してみましたが、修正前は約2秒で、修正後は約0.5秒でした。効果はあるようです。

Answer

malloc/freeがボトルネックになっているのであれば、アロケータを自前で実装しては如何でしょうか？シングルスレッドかつ確保/解放がstack的(sbrk的)用法で事足りるので、相応の処理性能向上が期待できると思います。サンプルコードを添付します。

既存コードのmallocをmyMallocに、freeをmyFreeに置換
myFreeの呼び出しをmyMallocの逆順に変更
初期化/終了処理としてinitializeMyHeapとfinalizeMyHeapの呼び出しを追加
initializeMyHeapのiPoolSizeは最大確保サイズ[B], iMaxBlockは最大確保ブロック数です.

lang
1typedef struct _MyHeap {
2   void* pPool;
3   int iPoolSize;
4   int* pBlockSize;
5   int iMaxBlock;
6   void* pCurrent;
7   int iCurrentBlock;
8} MyHeap;
9
10static MyHeap* pThis = NULL;
11
12///////////////////////////////////////////////////////////////////////////////
13void initializeMyHeap(int iPoolSize, int iMaxBlock) {
14   assert(pThis == NULL);
15   assert(iPoolSize > 0);
16   assert(iMaxBlock > 0);
17
18   pThis = malloc(sizeof(MyHeap));
19   pThis->iPoolSize = iPoolSize;
20   pThis->iMaxBlock = iMaxBlock;
21   pThis->pPool = malloc(iPoolSize);
22   pThis->pBlockSize = malloc(sizeof(int) * iMaxBlock);
23   pThis->pCurrent = pThis->pPool;
24   pThis->iCurrentBlock = 0;
25}
26
27///////////////////////////////////////////////////////////////////////////////
28void finalizeMyHeap() {
29   assert(pThis != NULL);
30
31   free(pThis->pPool);
32   free(pThis->pBlockSize);
33   free(pThis);
34}
35
36///////////////////////////////////////////////////////////////////////////////
37void* myMalloc(int size) {
38   void* rv;
39
40   assert(size > 0);
41   assert((char*)pThis->pCurrent - (char*)pThis->pPool + size < pThis->iPoolSize);
42   assert(pThis->iCurrentBlock < pThis->iMaxBlock);
43
44   rv = pThis->pCurrent;
45   (char*)pThis->pCurrent += size;
46   pThis->pBlockSize[pThis->iCurrentBlock] = size;
47   ++pThis->iCurrentBlock;
48
49   return rv;
50}
51
52///////////////////////////////////////////////////////////////////////////////
53void myFree(void* p) {
54   assert(p != NULL);
55   assert(pThis->iCurrentBlock > 0);
56   assert((char*)pThis->pCurrent - pThis->pBlockSize[pThis->iCurrentBlock-1] == p);
57
58   --pThis->iCurrentBlock;
59   (char*)pThis->pCurrent -= pThis->pBlockSize[pThis->iCurrentBlock];
60}
61

Answer

こんにちは。

argv[1]が決まれば、str()の最後のパラメータnの最大値も決まると思います。
malloc/freeの回数を減らすだけであれば、その最大値分のメモリをmain()の頭で現状と同じ構造で獲得すればX[i][j]形式のままアクセスできますよ。
ちょっと安易ですが、X, Y, M1,...をグローバル変数とすれば改造量は最小限で済みます。

他に、あまりお薦めではないですが、str()の最後のパラメータのnの最大値を決めれば通常の2次元配列を使ってできると思います。
ただ、記述にちょっと自信がないのと、たぶんお望みの方法ではないと思うので詳細は省略します。

---

【追記】
見落としてました。str()を再帰呼び出ししてますね。私の回答ではうまくいきません。
２次元配列は動的獲得できなかったと思います。
一次元配列にしてmalloc/free回数を減らすくらいしか思いつきません。
お役にたてず申し訳ない。

---

【更に追記】
[良いサイト](http://tondol.hatenablog.jp/entry/20090713/1247426321)がありました。
> C言語で２次元配列を動的に割り当てる４つの方法

あと、コードに気になる点が一つ。 main関数内のメモリを確保／解放するところで for (i = 1; i <= size; i++) とやっていますが、正しくは for (i = 1; i < size; i++) ですね。

関連した質問

あと、コードに気になる点が一つ。
main関数内のメモリを確保／解放するところで
`for (i = 1; i <= size; i++)`
とやっていますが、正しくは
`for (i = 1; i < size; i++)`
ですね。