FFTプログラムでの配列サイズの節約

Question

ご覧頂きありがとうございます。
FORTRANで多次元FFTのプログラムを作っている者です。

多次元FFTのプログラム自体は完成したのですが、
それを行うためのデータを格納する配列のサイズが大きすぎ、
プログラムを実行しようとしても強制終了となってしまう、
という問題に悩んでいます。

現在のプログラムは、1次元FFTのプログラムを繰り返して多次元のFFTを計算するものです。
つまり、例えば2次元であれば、
あるデータ
__F(i*dx, j*dt)__    (i=1,…,N1,    j=1,…,N2)
について、
まず __x__ についての長さ __N1__ の1次元FFTを __t__ を動かしながら __N2__ 回行い、
次に __t__ についての長さ __N2__ の1次元FFTを __x__ を動かしながら __N1__ 回行って計算する、
という方法です。
その際用いるデータは、
__a(i, j)=F(i*dx, j*dt)__
のように2次元の配列となっています。

ここで、私が計算したいデータは、
__F(x, y, z, t)__
という4次元のデータなのですが、
上に述べたように計算しようとすると、配列も
__a(i, j, k, l)=F(i*dx, j*dy, k*dz, l*dt)__
と4次元のものを使わなくてはならず、
サイズが爆発的に大きくなり、強制終了となってしまいます。

そこでお聞きしたいのですが、
多次元のFFTについて、プログラムが強制終了とならないよう、
配列のサイズを節約するには、どのような方法があるでしょうか。
ちなみに、コンパイル時は、-mcmodel=large のオプションをつけて行っています。

どうかご回答よろしくお願いいたします。

Accepted Answer

仮にサンプルの各次元の数が`2**10`で各データが16ビットだとすると、単純に考えて`2**10**4*2 = 2**41`バイトの物理メモリが必要になってしまいますね。

1次元FFTの計算を分割して行うことで、各ステップでメモリに置いておかなければならないデータの量を減らすことはできると思います。たとえば上述の例では`N1 = p1**2` (`p1 = 2**5`) なので、2次元化FFTを実行すれば各ステップでの計算に必要なメモリ量はデータ`p1・N2・N3・N4`個分に減らせます。さらに`N2`に対しても同様にすれば、`p1・p2・N3・N4`個分にまで減らせます。

ただし、計算量は増えます。2次元化FFTでは通常のFFTを2回 (以上) 実行するほか、計算途中のデータを並べ替える処理も実行しなければなりません (2次元化FFTの説明は[これ](http://xn--w6q13e505b.jp/method/fft/2dfft.html)が分かりやすかったです)。また、計算に必要ない領域のデータを外部記憶 (ディスクなど) に追い出し、必要になったらメモリに読み込む処理があるため、I/Oに費やす時間が無視できなくなります。

こういったマイナス要因があってもなお、許容できる時間内で結果が出せそうであれば、試す価値はあると思います。

---

(追記)

「2次元化FFT」というのは正式な呼び名ではないかもしれません。「six-step FFT」のほうがウェブ検索でよくヒットします。詳しい解説としては、たとえば計算物質科学イニシアティブでの2014年の講義「[大規模系での高速フーリエ変換1](http://www.cms-initiative.jp/ja/research-support/develop-support/how-to-publish/develop-apps/apps-implement/2014-haishinB-06)」などはどうでしょう。「n=n1n2に対するFFTアルゴリズム」のところからです。

簡単に言うと、N = n1・n2個のサンプルをn1 × n2の2次元に配列し直し、n1個の行とn2個の列のそれぞれで1次元FFTを実行し、それら2・n1・n2回のFFTの結果からN個の場合のFFTの結果を計算する、という手法です。計算の各ステップでは、n1個またはn2個のデータだけがメモリ上にあればいいことになります。必要ないデータは外部記憶に書き出し、必要になったら読み込みます。

上記の講義でも述べているように、もともとこの手法は、FFTのサンプル数がCPUの[キャッシュメモリ](https://ja.wikipedia.org/wiki/L2%E3%82%AD%E3%83%A3%E3%83%83%E3%82%B7%E3%83%A5)のサイズと比較して大きいと、キャッシュミスが多発して処理速度が著しく低下する、ということへの対策として考えられたようです。しかし今回の場合は、メインメモリをディスクに、キャッシュメモリをメインメモリに置きかえて考えてみて下さい。

(11/12さらに追記。また前回追記分で式がおかしいところを直しました)

ともかく、この手法は1次元FFTについて計算の各ステップで必要なメモリを節約しているだけで、4次元分の計算が必要なことは変わりません。でも、1次元分だけに適用して他の次元は全範囲をメモリに置くとしても、回答冒頭の例では必要メモリ量が`2**5 * 2**10**3 * 2 = 2**36`バイトに減らせます。かなり現実的な数字になってきますね。

Answer

Fortran90という事で、手っ取り早く参考になるページを。
[Segmentation fault: 巨大な配列の場合](http://www.hysk.sakura.ne.jp/Linux_tips/F90_index)
この中で、コンパイルの際に（泥臭い方法だけど）オプションをつけて回避する方法。（絶対とは言えないけど、以降の参考になると思った）
それと実行のオプションの説明があります。

関連した質問