SSHで外部の計算用のサーバーにアクセスし、
MEEPという電磁気のシミュレーションソフトを動かしています。
このサーバーが頻繁にstack overflowで落ちます。
MEEPのアルゴリズム(FDTD法)から考えると深い再帰はしていないはずで、何がstack overflowを引き起こしているのかよく分からないです。
2つのmcelogのエラーメッセージが出ています。
下に載せました。
メモリーの接触不良かと思い、内蔵されている8枚(1枚16GB)のメモリをすべて取り外しもう一度取り付けました。
しかし、このエラーは再発しました。
計算用のサーバーはほかに3台あり、その3台でエラーは出たことがなく、今回のサーバー固有の問題です。
原因や解決方法が分かる方がいらっしゃいましたらご教示ください。
ulimit -s でスタックサイズを調べたところ、
すべてのサーバーはデフォルト値の8192kBでした。
Hardware event. This is not a software error. MCE 0 CPU 10 BANK 7 MISC 15272f286 ADDR 203e283f00 TIME 1536157908 Wed Sep 5 23:31:48 2018 MCG status: MCi status: Error overflow Uncorrected error Error enabled MCi_MISC register valid MCi_ADDR register valid Processor context corrupt MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR Transaction: Memory read error STATUS fe00078000010091 MCGSTATUS 0 MCGCAP 7000c16 APICID 20 SOCKETID 1 CPUID Vendor Intel Family 6 Model 63
Hardware event. This is not a software error. MCE 1 CPU 10 BANK 10 MISC 900203660367e8c ADDR 16f87c2000 TIME 1536157908 Wed Sep 5 23:31:48 2018 MCG status: MCi status: Error overflow Uncorrected error Error enabled MCi_MISC register valid MCi_ADDR register valid Processor context corrupt MCA: MEMORY CONTROLLER MS_CHANNEL1_ERR Transaction: Memory scrubbing error MemCtrl: Uncorrected patrol scrub error STATUS fe00003f001000c1 MCGSTATUS 0 MCGCAP 7000c16 APICID 20 SOCKETID 1 CPUID Vendor Inte l Family 6 Model 63
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/25 13:07
2018/09/25 13:15 編集
2018/09/25 13:20
2018/09/25 13:22
2018/09/25 13:26
2018/09/25 13:42
2018/10/17 19:25