先日発生したNTT西日本 フレッツ光など通信サービスでの通信障害について、勤務先でも影響を受けました。そのときのひとり情シスとしての対応について、いつか部下が配属されることを夢見ながら今後のための備忘録として残しておきます。
概要
当日はニュースでも取り上げられているとおり、おおよそ障害が発生したタイミングで社内でもインターネット向けの通信が遅くなり始め、最終的には通信ができない状態になりました。
問い合わせが殺到するなか行った、原因にたどり着くまで、行った暫定的な処置や今後の反省点などについてまとめていきます。
詳細
環境
まず環境についてはざっくり以下になります。
- NTT Communicationsの Arcstar Universal One サービスをして拠点間通信を行っている
- LTE網を利用した副回線もあり
- 出張やテレワーク用にモバイルルーターが各本部に1~2台ずつあり
- 他拠点は全員モバイルルーターを所持
- 帯域保証なし
通信障害の原因にたどりつくまで
ことの発端は、社員からウェブサイトの表示が遅いという雑談から始まりました。測定サイト(fast.com)で測定した時点で平常時(30Mbps~40Mbps)より下回る 8Mbps 前後でしたので調査を始めました。
社内のトラフィック状況には問題なし
もともとのインフラが古い部分もあり、一部の方が大容量の通信をおこなったりして通信が極端に遅くなることがまれにありました。
死活状況やトラフィック情報の収集を行うため、 Buffalo の BS-GS20シリーズ などの SNMP 機能をもったスイッチングハブなどのネットワーク機器を設置し、Zabbix で監視していました。
今回こちらを確認しても急激にトラフィックが増えたり、故障していそうな機器がありませんでした。
NTT 貸与の機器やビジネスポータルからの通信テストでも問題なし
NTT Communicationsの Arcstar Universal One 利用時に設置されるルーターや ONU の状態を確認しましたが、 LED の点灯状態も正常でしたのでこちらも特に問題ありませんでした。
他社さんによってはルーターの LED 点灯状態に問題がでていることがあったようです。
販売会社の営業担当に確認しようやく原因がわかる
この調査を始めた時点でも問い合わせていましたが、その時点ではわかっていませんでした。
こちらの調査した結果をまとめて連絡した上で確認してもらったところ、本体の方で今回の通信障害が発生しているとの情報をようやくもらえました。また、幸いなことに 同社と契約している LTE 網に影響がないことがわかりました。
以前にもあったのですが、こちらの環境に問題がないことを指し示す情報をまとめて提示しないとなかなか行動してもらえないのがひとり情シスにとってはつらいところです。
そのおかげもあり、確認できる環境を構築するための予算が増えたので、結果としてはよかったのかもしれませんが。
業務を止めないための暫定的な処置
NTT の通信障害が改善されるまで改善の余地がないことがわかったため、暫定的な処置を行い始めるのですが、この時点で問題発生から十数分たっていました。
インターネット回線が必要な基幹業務への対応
インターネット回線が使用できなくなったことで以下の業務に問題が発生していました。
- 受発注業務
- コンタクトセンター業務
- 発送業務
これらの業務を行っている部署にクレードル付きのモバイルルーターとスイッチングハブで暫定的なネットワーク環境を構築しました。
ただ、問題点として一部の業務についてはオンプレサーバー向けの通信とクラウドサーバー向けの通信が必要でしたので、パソコン毎にオンプレサーバーが必要な業務とクラウドサーバーが必要な業務にわけて処理していただくようにしました。
パソコン一台で両方への通信が必要な場合は、USB で NIC を増設し、route コマンドでオンプレサーバー向けとクラウドサーバー向けで使用する NIC を分ける設定を行いました。
使用したクレードル付きのモバイルルーターは NEC 製の Aterm MR05LN で、 SIM は NTT Communications の ドコモ LTE 網を利用しているものになります。
目安としてよく利用する fast.com の通信テストでは平均 40Mbps でした。単体での通信であれば主回線と同等の速度であることと、1台毎に接続するPCが5~6台でしたのでこの判断を行いました。
複数端末を接続した際にどこまで耐えられるかによりますが、カタログスペックでは受信最大 375Mbps となっています。また、複数 SIM にも対応していますので、別会社の SIM を契約しておいてもいいと思います。
Eメールなど基幹業務以外のインターネット回線が必要な業務への対応
こちらについては優先度が低かったため、基幹業務の対応が終わってから掲示板システムでモバイルルータであればそれぞれの業務を行える旨と、各部門で所有しているモバイルルータの状況を共有し、必要に応じてそれぞれの部門で共有してもらうように連絡しました。
LTE 網を利用した副回線へ強制的に切り替える
諸事情に主回線(WAN)側の LAN ケーブルを抜き、強制的に副回線である LTE 網を利用させるようにしました。
最優先で行うべきでしたが、私の確認不足により最後の対応となってしまいました。
今後へ向けての反省
- 簡易の案内を社内放送などで先に全体に通知する
個別の問い合わせ業務に追われて全体への案内が遅くなったことが原因で、基幹業務への対応などが想定より遅れてしまいました。
すべて一人で対応していることも一つの要因ですが、それを考量した動きができていなかったため反省する必要がありました。 - 主回線から副回線への切替状況を確認する
この部分を正確に確認できていなかったため、副回線への切替対応が遅れてしまいました。
本来であれば主回線に問題が発生した場合、自動で副回線に切り替わるようになっています。ただ、今回の場合は極端に通信速度が遅いだけでルーター側は主回線に問題が発生したと認識していなかったため、自動で副回線へ切り替わっていませんでした。
これを行うだけでも、もう少し早い段階で他拠点からの通信に対して多少の改善を見込めたため、状況を正確に判断する必要がありました。
おわりに
今回の障害に対する対応内容のまとめでした。
もともと想定をしていた対応ではあったため大きな問題になる前に対処できましたが、対応の順序を一部誤ったため想定より時間がかかってしまいました。ひとり情シスなりにもっといい立ち回りがあったと思いますので、それに関しては今後改善出来るようにしていきます。
悪いことだけではなく、別の通信手段として LTE 網を持っておくことや、クレードル付きのモバイルルーターで仮ネットワークを構築して複数端末に対してまとめて対応できたりしましたので、この辺については導入しておいてよかったです。