IT TECH?: 2011年2月アーカイブ

ここ数日、急な物事の展開や、取引先のサーバーのトラブルの対応で、遅れては居たのですが、昨日は、無駄に体が寒くなると言う現象が発生し、アウト。

結果見れば、連日20時間ぐらい、緊張感ある中で働いて、完全な燃料切れだったのかも。

目が回り吐き気がし出したので、20時で仕事を止めて、アイスを食べたら、数時間で収まりました。



参考までに、サーバートラブルの様子を公開します(あくまで)



・1から2月前ぐらいに、緊急停止。
その時は、なぜか、ISPではなく、●TTから、連絡。
その時は再起動で復帰
(ここ、理由判る方います?トラフィックでも、仮に違法コンテンツ掲載でも、ISP飛び越えて、回線屋の方が来る事例。ちなみに、うちが世話になっている業者では、聞いた事がないという事でした。)

・そこから2週間ごと、上記と同様の事が数回起こる。

・その上で、メールトラブルも発生。

・トラブルの周期が短くなり、ついに、再起動だけでは、直らなくなる

・末期は、毎日。

・最後は1日に3度も、落ちるようになる


その上で
・設定も、運用も、こちらに、全く知らされて無く、落ちた結果、前後の様子しか判らない
・現在運用している人間が、全くなれて居ない
・その上で、上記の人間が、操作ミス、勘違いが非常に多い

この複数要因が原因で時間掛かっていました。

現場で、直接コントロール出来ていたら、もっと早かったのですが、遠隔で、その上で、正確な情報が無かったので、一つずつ、要因を消していくしかありません。

この会社では、もう一つサーバーが運用され、もう一つは、20倍以上の負荷が掛かっていて、サーバーのスペックも、2世代は、落ちたスペックです。
このサーバーの違いは、運用しているアプリが異なるのと(ECサイトをやっている)、外部の人間が接続するサーバーという事でした

これ考えると
・接続関連
・人為的ミス
・アプリ
・攻撃
この4つかなと言う大まかな要因に切り分け、トラブルシューティングです
この段階では、管理者の、設定ミスを疑っていました。

まずは、設定と、運用しているアプリの情報をまとめて貰うのをやってもらい、並行して、接続を、サーバーの方で、やっていたので(ppoe)ルーターを導入しました。

導入直後、非常に快適になったのですが、当日の夜→早朝にかけて3度落ちる。
と言う状況になりました。

これで、過負荷と接続という部分も無くなりました。

次に、今度は、アプリ動かす以外の余計な物の設定の排除をしました。
設定者が、消え去り、その後、スパゲッティーコードのごとく、つぎはぎで、サーバーの設定を、色々変更して、現状の管理者では、ほとんど理解してなかったからです。


そして、若干落ち着きを取り戻しました。


なかなか、情報も、時間掛かりそうなので、次の指示。

ウイルスチェックをして貰いました。


その結果は、

uirus.JPG



























こんなの出てきたんですが、どうすれば良いですか?




それみて、全てを悟りました。

それが原因だと。


今回のは、同じような環境のサーバーがもう一台有り、そっちの方が負荷があるのに、落ちてない。
そのサーバーとの差を考えるのが早道と考えていました。

その上で、アプリか?設定ミス、ひょっとしたらという思いも、すこしありました。

変な名前のプロセスが、動いていたのは、気付いていたのですが、それよりも、まず、問題の切り分けが先だと思いが強かったのと、直前に、管理者の設定ミスで、この数ヶ月、停滞していた事が、1点判明していたので、その部分から、洗おうと必死でした。

しかし、動いていたプロセス名、電話で、こんなウイルスが見つかったんですが、と聞いた時に、全てがつながりました。

ああ、相手も判らないような奴がつなぐ(FTP)サーバーだったんだって


サルベージも、したいところですが、まずは、安定運用という事で、暫定的に削除して、様子見、並行して、情報まとめるのと、新しいサーバー構成と管理構成を構築すべく、動いています。

本当の理由は、サルベージ後に、又公開する予定。



ちなみに、今現在は、落ち着いてCPU10%前後の使用、ロードアベレージも0.3前後で安定しています


さて、今日も頑張ろう







毎日やるべき事は、やっているのだが、それ以上に、色々発生してくるタスクの処理で、1日、8時間は取られてしまう。

そろそろ、取捨選択を、自分にも迫られているようだ。


昨日は、取引先のサーバートラブルに明け暮れてました。

しかも、今日もトラブルらしい。
突発的に、トラブルは、始まり、そこから、周期的におこるようになり。

その周期が、どんどん短期に。。。


はじめは、再起動で直った物が、どんどん症状が重くなり、再起動でも直らないみたいです



僕も、直してあげたいのですが、元々、設定した人は、いなくなり、今の管理者も表面触るだけ(webminで管理)。

ある程度の設定資料まとめてくれ、とお願いしてあるのですが、その最中での出来事。


今のままだと、きりがないので、僕が行ってセットアップする事になりそうです。
一からの設計になりそうだ、、、、、、



[追い込むための公開タスクリスト]
・技術者の雇用(国籍&在宅問わず)
・新規サーバー管理運用体制の構築
・サイト制作5件
・自社関連サイトリニューアル3件
・某国大FW設定&運用テスト
・某社サーバー管理
・某G,Y絡み、プロモーション案件
・D社企画、電子書籍関連事業、ECコマース事業企画&運用一式
・上記、自社運用サーバー、ネットワーク、運用&構築&マニュアル作成
・C社関連(謎)
・F社通販事業、企画運用、新規サービスイン
・S社、物販事業プロモーション、店舗運営コンサルティング
・I社提携関連
・観光ビジネス、情報収集
・海外向けサービス、サービスイン
その他、企画段階多数

・事務所片付け
・積ん読本処理
・自炊設定(昨年6月購入、まだ箱すら開けてない、裁断機と、スキャンスナップ^^;)
・確定申告(個人分)

個人的勉強分
・仮想化&ストレージ
・言語解析
・体を鍛える
・全ての情報の整理(物も含めて)

目標
・休める体制作り
・某社長を男にする
・自社サービスの拡充
・東京にオフィス構える


事務所片付けさえ終われば、
真剣に技術者募集中してます。
在宅&国籍&年齢、問わず、よろしくお願いします

気軽に、メールでお問い合わせお願いします

























このアーカイブについて

このページには、2011年2月以降に書かれたブログ記事のうちIT TECH?カテゴリに属しているものが含まれています。

前のアーカイブはIT TECH?: 2011年1月です。

次のアーカイブはIT TECH?: 2011年5月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.29