インスタ(instagram)やフェイスブック(facebook)などで大規模な障害が発生。
不具合で繋がらないというエラーが報告されていますが、障害の原因はDNS?BGP?
インスタ障害の原因はDNS?BGP?facebookも繋がらない障害の復旧は?
FacebookとInstagramで障害、5日未明
5日未明、FacebookとInstagramにアクセスできない状態となった。編集部で確認したところ、Facebookの障害ステータスページや同社公式ブログにもアクセスできない。
法人向けソリューションを手掛けるCloudflareのCTOであるジョン・グラハム=カミング氏は、自身のTwitterで、今回のFacebookの障害について投稿している。それによれば、データをやり取りする経路の制御情報(BGP、Border Gateway Protocol)に問題が発生したとの見方が示されている。
https://news.yahoo.co.jp/articles/4b7af767ecce5648a9df4621c6d42350b0bb131a
DNSとは、Domain Name Systemの略で、人間が読めるホスト名(arstechnica.comなど)を生の数字であるIPアドレス(18.221.249.245など)に変換するサービスです。DNSが機能しないと、あなたのコンピュータは、あなたが探しているウェブサイトをホストしているサーバーへのアクセス方法を知ることができません。
この問題は、フェイスブックの明らかなDNSの失敗にとどまらず、もっと深いところにまで及んでいます。Facebook社が所有するInstagramもダウンしていましたが、そのDNSサービス(Facebook社のネットワークに組み込まれているのではなく、Amazonにホストされている)は機能していました。InstagramとWhatsAppにはアクセスできましたが、代わりにHTTP 503エラー(リクエストに対応するサーバーがありません)が表示されました。これは、DNSが機能し、サービスのロードバランサーにはアクセスできたものの、ロードバランサーに供給すべきアプリケーションサーバーにはアクセスできなかったことを示しています。
その後、Cloudflare社のVPであるDane Knecht氏は、FacebookのBGPルートがすべて削除されたことを報告しました。(BGPはBorder Gateway Protocolの略で、あるネットワークが別のネットワークへの最適なルートを見つけるためのシステムです)。)
FacebookのネットワークへのBGPルートがないと、Facebook自身のDNSサーバーに到達できなくなり、Facebookが所有するInstagram、WhatsApp、Oculus VRのアプリケーションサーバーもなくなってしまいます。
あるネットワークのBGPルートが欠けていたり、間違っていたりすると、そのネットワークの外にいる人は誰も見つけることができません。
その後間もなく、Redditユーザーのu/ramenpornがr/sysadminサブレディットで、FacebookとのBGPピアリングが停止していることを報告しました。これはおそらく、障害が発生する直前に行われた設定変更が原因です。
Facebookの従業員で復旧作業に参加していると主張するu/ramenporn氏によると、これはFacebookのネットワークエンジニアが設定変更を推し進めた結果、誤ってロックアウトされてしまった可能性が高いとのことです。つまり、問題のルーターに物理的にアクセスできるデータセンターの技術者が修正しなければならないということです。撤退したルートは、Facebookのインフラに対する悪意のある攻撃の結果でもなければ、それに関連するものでもないようです。
Update 4:22pm EDT: New York Timesのテクノロジー・レポーターであるSheera Frenkel氏によると、Facebookの従業員の中には、停電の影響でバッジ・アクセスが停止し、建物に入ることができない人がいるとのことです。
Facebook、Instagram、WhatsAppの3社は、現在進行中の障害をTwitterで認め、できるだけ早くオンラインに戻すよう努力していると述べています。
「Facebookの広報担当者であるアンディ・ストーンは、今回の障害について次のように述べています。「当社のアプリや製品へのアクセスに問題が生じている方がいらっしゃることは認識しています。”可能な限り早く正常な状態に戻すよう努力しており、ご迷惑をおかけして申し訳ありません。”
また、FacebookのCTOであるMike Schroepfer氏は、同社のエンジニアリングチームがデバッグとサービスの早期復旧に取り組んでいると付け加えています。
“現在、Facebookのサービスが停止していることで影響を受けている皆様に、心からお詫び申し上げます。 ネットワークの問題が発生しており、チームは可能な限り迅速にデバッグと復旧に取り組んでいます」と述べています。
ネットワークの専門家によると、今回の障害の原因は、BGPルーティングの問題である可能性が高いとのことです。
Cloudflare社のCTOであるJohn Graham-Cumming氏は、「UTC 15:50からUTC 15:52の間に、Facebookとその関連プロパティが、BGPの更新をきっかけにインターネット上から姿を消しました」と説明しています。
「FacebookのIPアドレス空間へのトラフィックを示すBGPルートが取り除かれました。インターネットは、もはやFacebookのIPをどこで見つけたらいいのかわからなくなっています。症状のひとつとして、DNSリクエストが失敗しています」と、SANS Technology Instituteの研究部長であるJohannes B. Ullrich博士は付け加えました。
「しかし、これはFacebookがDNSサーバーを自社のネットワーク内に設置していることに起因します。DNSが動作していても(例えば、キャッシュされた結果が残っている場合)、現在はIPに到達できません。”