この記事は私の体験したIT障害のうち、一つのネットワークセグメント全域が通信不可となった事象について記載しています。
ネットワークの仕組みを理解していない人間の手により引き起こされる、稀によくあるタイプの障害です。
事象発生
朝出勤すると、一つのフロアで全てのPCがネットワークに繋がらない事象が発生しており、騒然としていました。
当時の環境はフロア毎にネットワークセグメントが分かれていたので、影響範囲から予測して、ループ発生かフロアスイッチの故障かな?とあたりをつけて調査を開始しました。
まずは有線LANのループが発生していないかを確認します。
ループ検知機能付きのL2スイッチをLANに接続しましたが、反応がありませんでした。
次に、フロアスイッチ(L3スイッチ)を調査します。
フロアスイッチにログオンして状態を確認したところ、機器の状態に異常は見当たりませんでした。
最初に予想した原因では無かったため、別な角度から調査を進めようと思い、現地のPCのネットワークの状態を確認してみることにしました。
原因判明
現地のPCで「ipconfig/all」を実行しました。
すると、IPアドレスが全く見覚えのないものが設定されていることが発覚しました。
PCは全台DHCP設定としており、本来であればフロアのネットワークアドレス(192.168.38.0/24)のいずれかがPCのIPアドレスとして配布されるのが正常な状態なのですが、それとは異なるものとなっていました。
次にDHCPサーバーの状況を確認しました。
該当のネットワークセグメントを確認したところ、一つもIPアドレスが配布されていない状況でした。
PCとDHCPサーバーの状況から察するに、フロアの有線LAN内にDHCP機能を持ったルーターが接続されている可能性が高いと判断しました。
そこで、フロアの職員にこのように呼びかけを行いました。
「今朝、有線LANに何か機器を接続をしませんでしたか?または配線接続の変更を行いませんでしたか?」
呼びかけを行って数分が経過したところ、職員からPCを再起動すると復旧したと報告が入りました。
私の呼びかけを聞いた犯人が、勝手に接続したDHCPルーターをネットワークから切断したことにより、正規のDHCPルーターからIPアドレスが配布される状況になりました。
こうして事態は収束し、普段通りの状態へ復旧することが出来ました。
あとがき
今回お話しした障害は、約6年前に発生したものです。
最近はどこの企業ネットワークも無線LANが主流のため、このような有線LAN系のトラブルは珍しくなりつつあります。
小規模なネットワークだと、有線LANを継続利用しているところもあると思いますので、ネットワークが不調な時は、こんなケースもあるということで参考にしていただければ幸いです。
障害の原因を作った人は、無自覚に行動しているため、「何かしましたか?」と聞いても「何もしてません(キリッ)」と答えてくることが多いです。
相手の返答を完全に信頼しないことと、相手に罪の意識を持たせずに話を引き出すスキルが、人的なネットワークトラブル解消には大切です。
他の障害対応については、下の記事をご覧ください。