kaiman++ IT security & ギラギラ生きる & 酒 & 神戸でタグ「トラブル」が付けられているもの

契約している会社で定期的にNICが落ちる会社がある
既に、かなり変な構成になっているので、ハードウェアの保守の保証外、、、

とりあえず、全くアプリ構成、仕様を知らないので、トラブルが来たらネットワークの再起動で対応してます。

しかし、今日、そのネットワークの再起動で、いつも落ちる側ではない方の、NICが落ちました

ちなみに
eth0 は外部で、外部に公開ウェブサーバーとして動作
eth1 は内部で、MSSQLサーバーと通信

ログ見るとこんな感じ
Aug  2 13:19:00 xxxxxxx ifdown: ifcfg-eth1: line 11: /root: is a directory
Aug  2 13:19:00 xxxxxxx kernel: eth1: interrupt 5 taken in poll

Aug  2 13:45:41 xxxxxx kernel: NETDEV WATCHDOG: eth1: transmit timed out
Aug  2 13:45:41 xxxxxx kernel: eth1: TX Timeout


とりあえず、一番上の行は、解決
それ以外は、意味がわかりませんw

ま、NIC1側が内部でとりあえず変な通信しているので、そっちで何か引き起こしているのは、間違いないと思うのですが。全てが、丸投げで、自社でも、仕様書が無い状況なので、、、、、


さて、どうなるやら。。。。

クライアントに、IMEの調子がおかしいと言われ、リモートでチェックする

確かにおかしい。。。

WEBアプリ系でUSキーボードを使っているような症状
@を押すと「みたいな感じ

しかし、テキストなど、ローカルにあるファイルの直接的な入力は、問題なく、動いている

と言う事で、IMEの致命的なエラーというよりは、設定関連、もしくは、何らかのアプリが要因かなと言う事で、トラブルシューティング開始

・設定みるも、特におかしいところ無し
・直前にウイルスバスター2009をインストールした、とのことなので、この辺もチェック

ここから、google先生に・・・・

http://support.microsoft.com/default.aspx?scid=kb;ja;418903
この辺が近そうなので、レジストリチェックしてみる

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Keyboard Layouts\00000411
名前: Layout file

KBDJPN.DLL

とりあえず、治った?模様

うーん、このパソコンは色々なことが起こります

自分のサーバーのトラブルシューティングと言ってもHD抜き変えるだけ

一般的なPCには、IDE、SATAが一般的でほとんどホットスワップなど出来ない仕様になっているが、サーバーはホットスワップのSCSIがスタンダード、最近はSASが主流っぽいけど。。。

で、当社はクライアントに予算で強い制限がない限り、ホットスワップRAID1以上で組んでおりまして、私的サーバーはRAID5、スロット多いとホットスペアも用意して、割と万全な状態にしてます。

で、今回のサーバーは、ホットスワップRAID5。

実は、数ヶ月前からHDのエラーのランプが点灯


これからどうなるか実験の意味もあり放置してました(ただ忙しかっただけw)
ちなみに、プラべーとサーバーでは有るのですが、平均通信料2Mb/sというそれなりな動きをしているサーバーで、XEON2.2Gという何世代まえ?って言うような、老体にしては頑張ってくれてます

1,HDのエラーランプ点灯から3ヶ月目、朝4時頃、ログ書きやtripwireが動くタイミングで一度こける→表示はkarnel panic

とりえず、切断、再起動で復活したので、放置w

2,その1月後ぐらい、1と同様の状況
3,その3週間後ぐらいに発生、1と同様の状況
4,その10日後ぐらいに発生。。
5,その1週間後ぐらいに発生
6,その3日後に発生
7、次の日発生

と言う状況でした、連続で発生したので、HDの交換と相成りました。
とりあえず、発生は、特にログの量や、負荷には関係なく、tripwireの起動タイミングで発生していた模様でした

ちなみに、知らない人に、説明すると、ホットスワップタイプは、電源入れたままで、該当HDを抜き変えるだけです。
HDって、壊れると、同時期に使い出したHDが一斉に壊れ出すパターンもあるのですが、僕は、中古をシャッフルして使い回しているので(勿論自分用の時だけです)、連続トラブルは無いです。それがあるのは、PCの方だったり、、、、

作業終了


前書いた、メールの遅延の話、結局、顧客のユーザー管理の部分の欠落が原因でした。
当社にサーバーを乗り換えた時から、メールの成功率が低いなとは思ったのですが、それも、相手の仕様だろうということで気にもしませんでしたが、結局その部分が、今回のトラブルにつながったようです。

とりあえず、対応後は、携帯向き 2000件程度送信を150秒以内でこなしていたので、全くチューニングしてない状況なら、OKでしょう

しかし今回ので、思ったことは、携帯向けメール発射台は、別で研究しておかないと、駄目かなと痛感しました。
少し基本に戻って、MTAを勉強しないと・・・・

 

先週は、他にもサーバートラブルがあったので、少しトラブルが多い週でした^^;

 

しかし、自分の予定が一切こなせていない、今日この頃、大丈夫なんだろうか?

 

メールの遅延が発生していると、連絡。
占有でlinuxサーバーを使っている業者で、1日、12000~18000件程度そのサーバーから送信。

 

見てみると、キューに7000件ぐらい貯まってる・・・・・・・・・
とりあえず、遅延の原因はここなのだが、なぜこんなに貯まっているのか?

特に、AUが酷いとのことだったのだが、そこから調査が始まる。
このサーバーは特にメール配信に関してチューニングすることもなく、複数ドメインを並列に扱うと言うことで、qmailを使っているのですが、それでも、1日20000件程度の送信ならば、遅延が発生するレベルではない・・・・

携帯向きの送信が 4系のエラーで切断が多かったので、たまたま、それが重なっただけ?
ちなみに、ピーク時1日合計80000件ぐらいエラーが発生、メール送信の成功率7%!!!
数日モニタリング、しかし、どうもそれだけでない雰囲気。一度の送信で、まとめて送れる時と、送れない時の挙動の差が激しい。

とりあえず、貯まっていたキューを削除したら、遅延2時間以内には収まったのだが、何か引っかかる、、、
成功率も20%、4系エラーも 30000件まで減少、、、しているのだが、どうしても、1日200件はキューにとどまってます。

 

とりあえず、携帯はさておき、基本の見直しをすることに。

すると、ユーザーの設定で、致命的な物が!
確かに、これは、接続を切断される要因になるかもという物でした・・・・・

17時に問題点を仕様変更して、朝7時に送られてくる、一日の集計で、4系のエラーが18000件程度、成功率も35%までに・・・

 

 

とりあえず、もう少し様子見

 

特殊なパーツが欠品 

 

 

精神持つかな、、、、、(^^ゞ

トラブルが起こって、気が休むことがない毎日、自分がチキンハートだってことにようやく気付く

 

明日第一段階の工事なのだが、これで、解決が見えなければ、ホンマやばい。

 

少しだけ、薬物に手を出す人の気持ちが理解できそうなぐらい、やられかけてます

 

 

多分、今年中は気が休まらないな、、、、、ということで、年内の予定はすべて、変更です

とりあえず、昨日、今日と症状は出ず

 

 

昨日、今日と助手に手伝ってもらってたので、割とリラックスできた、、、、

しかし、どうなるんだろう?

 

 

変わって、亀田問題

昨日の夕方から、ニュースぶっ通しでやっていたがそれほどのねたか?

さらに、今日の朝もワイドショーでぶっ続け、、、、、

 

いろんなしがらみ、あるんだろうけど、

まず、問題の根幹、親父が謝る、、、ここでしょう

 

また、波さえ去れば、暴れますよ、ああいうタイプはw

 

 

さらに、NOVA問題

しかし、それまで、何もなくても、企業って一気に崩れていくものなんだねと痛感

しかし、被害者や労働者は救われるのか?その点ばかり問題になってるけど、無理ですよね、、、、、

 

しかし、ああいうシステムの問題1人や二人のときは問題にならないのに、マスコミがとりあげて、追求するとすぐ、官が動く体制、亀田もそうだけど、ほんと、マスコミの恐ろしさを痛感しますね

 

 

とりあえず、今日も、トラブル起こらないでほしい、、、、マジでw

なんと、風邪をひく

それだけなら、自分が頑張れば良いことなのだが、現在、データセンターの謎の電力トラブルに見舞われてます

 

先ほど電気屋に来て貰い、トラブルシューティングをして貰ったのだが、やはり、謎とのこと

 

しょうがないので、電気回線の冗長化、UPSを更に保険で入れておくことに・・・・・

 

幾ら掛かるんだろ(^^ゞ

 

 

ということで、当分、事務所から離れることができません

http://www.nikkei.co.jp/news/main/im20071012SSXKF003112102007.html

 

自動改札トラブル

 

最近切符のIC化などで、ネットワークの接続なども複雑に行われているのかと思いますが、原因は如何に?

こういう場合の補償問題、どうなるんでしょうね?

 

 

追記(1013)

改札機の組み込みプログラムのミスと判明したらしい

駅と中央のホストのデータのミスマッチで起動しない症状が発生、その原因はデータ送信時のエラー発生の場合の処理の問題みたいですが、、、、、

 

こういう場合の補償問題、どうなってくるんでしょう(^^ゞ

260万人の足に影響らしいですから、100円で保証しても、約3億、、、、

 

しかし、こういう万一の有事の際の対応、前もって用意しておくのではなく、なったらなったでその場で処理って、中小、零細企業は多いんですよね、、、万が一、だから、まず起こらないっちゃ起こらないんで、大金掛けて用意しておくのが、対費用効果として、どうなのかは置いておいて、結局しわ寄せ来るのが現場ですからね、、、、、

自分に、起こらないことを切に祈りますw

 

タグ