質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Q&A

1回答

1150閲覧

プログラムの実行中にlinuxのサーバーがstackoverflowでフリーズする

ruei

総合スコア284

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

0グッド

0クリップ

投稿2018/09/25 12:57

編集2022/01/12 10:55

SSHで外部の計算用のサーバーにアクセスし、
MEEPという電磁気のシミュレーションソフトを動かしています。

このサーバーが頻繁にstack overflowで落ちます。
MEEPのアルゴリズム(FDTD法)から考えると深い再帰はしていないはずで、何がstack overflowを引き起こしているのかよく分からないです。
2つのmcelogのエラーメッセージが出ています。
下に載せました。
メモリーの接触不良かと思い、内蔵されている8枚(1枚16GB)のメモリをすべて取り外しもう一度取り付けました。
しかし、このエラーは再発しました。
計算用のサーバーはほかに3台あり、その3台でエラーは出たことがなく、今回のサーバー固有の問題です。

原因や解決方法が分かる方がいらっしゃいましたらご教示ください。
ulimit -s でスタックサイズを調べたところ、
すべてのサーバーはデフォルト値の8192kBでした。

Hardware event. This is not a software error. MCE 0 CPU 10 BANK 7 MISC 15272f286 ADDR 203e283f00 TIME 1536157908 Wed Sep 5 23:31:48 2018 MCG status: MCi status: Error overflow Uncorrected error Error enabled MCi_MISC register valid MCi_ADDR register valid Processor context corrupt MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR Transaction: Memory read error STATUS fe00078000010091 MCGSTATUS 0 MCGCAP 7000c16 APICID 20 SOCKETID 1 CPUID Vendor Intel Family 6 Model 63
Hardware event. This is not a software error. MCE 1 CPU 10 BANK 10 MISC 900203660367e8c ADDR 16f87c2000 TIME 1536157908 Wed Sep 5 23:31:48 2018 MCG status: MCi status: Error overflow Uncorrected error Error enabled MCi_MISC register valid MCi_ADDR register valid Processor context corrupt MCA: MEMORY CONTROLLER MS_CHANNEL1_ERR Transaction: Memory scrubbing error MemCtrl: Uncorrected patrol scrub error STATUS fe00003f001000c1 MCGSTATUS 0 MCGCAP 7000c16 APICID 20 SOCKETID 1 CPUID Vendor Inte l Family 6 Model 63

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

Hardware event. This is not a software error.

の表記通り、メモリが壊れたのではないでしょうか。
memtest86 などでメモリチェックをしてみてはどうでしょうか。
接触不良でないのであれば、最終的には新品に変えるしかないかもしれません。

投稿2018/09/25 13:02

編集2018/09/25 13:09
yuki23

総合スコア1448

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ruei

2018/09/25 13:07

どのメモリが壊れているか診断する方法はありませんか? 全部交換するのはできないです。 一枚一枚差した状態でフリーズするかどうか確かめるのはやりたくないです。
yuki23

2018/09/25 13:15 編集

すいません、追記を見る前に編集してしまいました。 memtest86+ (http://www.memtest.org/) などはどうでしょうか。
ruei

2018/09/25 13:20

ありがとうございます。試してみます。
yuki23

2018/09/25 13:22

ちなみに、16GB×8枚となると相当時間がかかると思いますので覚悟してください(1日では終わらないかも?)
ruei

2018/09/25 13:26

MEEPの計算はメモリ的にかなりハードで、MEEP以外でそのサーバーは5年間、落ちたことがないです。 そのサーバーではMEEPを計算しないということで乗り切ることになるかもしれないです>< ご忠告ありがとうございます・・・。
yuki23

2018/09/25 13:42

思い出話ですが、古いマシンで同じようにメモリエラーが出まくっていて、いくらメモリを交換しても直らないと思ったら、古いCD-ROMドライブを新しいDVD-ROMドライブに交換(逆だったかも)したら直ったという経験があります。ハードウェアの故障の原因追及は一筋縄ではいきません……。
ruei

2018/10/17 19:25

2周(2日)memtest86+を走らせてみましたが、メモリエラーは見つかりませんでした。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問