今回は筆者の体験した障害のうち、一つのネットワークセグメント全域が通信不可となった事象についてお話しします。
ユーザー企業さんだと稀によくあるタイプの障害だと思います。
事象発生
朝出勤すると、一つのフロアで全てのPCがネットワークに繋がらない事象が発生しており、騒然としていました。
当時の環境はフロア毎にネットワークセグメントが分かれていたので、影響範囲から予測して、ループ発生かフロアスイッチの故障かな?とあたりをつけて調査を開始しました。
まずは有線LANのループが発生していないかを確認します。
ループ検知機能付きのL2スイッチをLANに接続しましたが、反応がありませんでした。
次に、フロアスイッチを調査します。
フロアスイッチはL3スイッチを設置しており、スイッチにログオンして状態を確認するも、こちらも特に異常は見当たりませんでした。
最初にあたりをつけた原因では無かったため、別な角度から調査を進めようと思い、現地のPCのネットワークの状態を確認してみることにしました。
原因判明
現地のPCで「ipconfig/all」を実行しました。
すると、IPアドレスが全く見覚えのないものが設定されていることが発覚しました。
PCは全台DHCP設定としており、本来であればフロアのネットワークアドレス(192.168.38.0/24)のいずれかがPCのIPアドレスとして配布されるのが正常な状態なのですが、それとは異なるものとなっていました。
次にDHCPサーバーの状況を確認しました。
該当のネットワークセグメントを確認したところ、一つもIPアドレスが配布されていない状況でした。
PCとDHCPサーバーの状況から察するに、フロアの有線LAN内にDHCP機能を持ったルーターが接続されている可能性が高いと判断しました。
そこで、フロアの職員にこのように呼びかけを行いました。
「今朝、有線LANに何か機器を接続をしませんでしたか?または配線接続の変更を行いませんでしたか?」
呼びかけを行っていると、PCを再起動すると復旧したと報告が入りました。
おそらく私の呼びかけを見て、犯人のDHCPルーターをネットワークから切断したのだと思います。
こうして事態は収束し、普段通りの状態へ復旧することが出来ました。
あとがき
今回お話しした障害は、約6年前に発生したものです。
最近はどこの企業ネットワークも無線LANが主流のため、このような有線LAN系のトラブルは珍しくなりつつあります。
小規模なネットワークだと、有線LANを継続利用しているところもあると思いますので、ネットワークが不調な時は、こんなケースもあるということで参考にしていただければ幸いです。
ここまでお読みいただきありがとうございました♪
↓前回の障害体験記事はこちら
www.withdrawal-civilservice.com