印刷用表示へ切り替え 通常表示へ切り替え 更新履歴を表示 更新履歴を隠す
HardwareLinux サーバ熱暴走か

朝チェックしてみると,サーバが停止していた。熱暴走だろうか。

■ ■ ■

このサイトのサーバは ThinkPad T22 Pentium III 1 GHz, メモリ 512 MB で動いている(ThinkPad T22(2647-9EJ) - 製品仕様)。OS は Vine Linux 3.2 kernel-2.4.31 である。

今朝起きてからチェックすると,電源が切れていた。裏側に手を当ててみると冷たい。止まってからかなり時間が経っていることになる。通常は CPU やハードディスクが稼動しているため温かいからだ。実は,昨日も停止していた。

このサイトでは温度監視を行っており,MRTG で記録とグラフ化を行っている(nlog(n): 温度変化を MRTG で表示する)。グラフから何か分かるかも知れない。

温度変化のグラフ(1日分)
温度変化のグラフ(1日分)


昨日は午前2時頃,今日は午前0時30分頃でグラフが途切れている。サーバがダウンしたためである。どちらも温度上昇中に突然ダウンしているのが分かる。

深夜の温度上昇は,大きなジョブが原因である。Movable Type の記事の再構築を夜中に行っているためだ(nlog(n): cron でインデックスを再構築)。

温度変化のグラフ(1週間分)
温度変化のグラフ(1週間分)


これは1週間分のグラフ。定期的に温度が上昇し下降している。ジョブが起動し,終了していることを意味する。

平均の温度は 52℃ と少し高め。最高は 61℃ となっていた。原因は熱かも知れない。熱でダウンしたとすると,トリガは次の2つのどちらかであると推測できる。

  • 高温になって CPU が熱暴走した
  • 高温になるとシャットダウンするような設定がしてある
    • 設定が BIOS にしてある
    • 設定が Linux にしてある

熱暴走して停止する場合,CPU が正常に動作しなくなるだけなので,ハードディスクの電源は切れずにハングアップしていることが多い。今回は電源が切れていることから,設定が疑わしい。BIOS の設定項目をチェックする必要がある。Linux で設定があるかどうかは不明である。

温度変化のグラフ(1か月分)
温度変化のグラフ(1か月分)


最近は気温が高くなっているのでサーバの温度も高くなる。今回のダウンの原因がどうであれ,サーバの熱対策を何か考えなければならない。ブログのデータが飛んでしまうと痛すぎる。

Posted by n at 2006-06-29 22:32 | Edit | Comments (0) | Trackback(0)
Trackbacks

  • 「手違いで複数トラックバックを送ってしまった!」という場合でも気にしないでください (重複分はこちらで勝手に削除させていただきます)
  • タイムアウトエラーは,こちらのサーバの処理能力不足が原因です (詳細は トラックバック送信時のエラー をご覧ください)
  • トラックバックする記事には,この記事へのリンクを含めてください(詳細は 迷惑トラックバック対策 をご覧ください)
Comments
Post a comment
  • 電子メールアドレスは必須ですが,表示されません (気になる場合は「メールアドレスのような」文字列でもOKです)
  • URL を入力した場合はリンクが張られます
  • コメント欄内ではタグは使えません
  • コメント欄内に URL を記入した場合は自動的にリンクに変換されます
  • コメント欄内の改行はそのまま改行となります
  • 「Confirmation Code」に表示されている数字を入力してください (迷惑コメント対策です)


(必須, 表示されます)


(必須, 表示されません)


(任意, リンクされます)


Confirmation Code (必須)


Remember info (R)?