2024年8月29日にAmazon Web Servicesで大規模障害が発生しました。
原因はAWSのネットワーク障害によるもので、これがIAM STS(認証情報を発行するサービス)への接続に影響を与え、認証関連のエラーが多発しました。
AWSのハードウェアに問題が発生した場合、システム担当者としては、何もできずただ待つしかないことが多いです。
しかし、まず「この障害はAWS側の問題かもしれない」と気づくことが重要です。では、どうすればそのような問題をAWS側の障害だと判断できるのでしょうか? この記事では、その方法について説明します。
AWSの障害情報を確認するためのサイト
- AWS Health Dashboard
- Downdetector
- X(旧Twitter)
AWS Health Dashboard
AWSが公式に障害情報を公開するサイト
AWSが公式に発表する障害情報を確認できるページです。正確な情報を得たい場合は、まずこのサイトを確認するのが良いでしょう。
例えば、2024年8月19日に発生したネットワーク障害についても、このダッシュボードで通知がありました。
メリットとデメリット
公式情報なので信頼性は高いですが、障害発生から通知までに時間がかかることがあります。
この場合、ネットワーク障害が発生し始めたのは日本時間の17:32頃でしたが、Health Dashboardでの通知は18:31に行われました。つまり、約1時間のタイムラグがあったわけです。
早急に情報を集めたい場合は別の方法もあわせて検討する必要があります。
Downdetector
リアルタイムで障害発生状況を確認できるサイト
Downdetectorは、さまざまなWebサービスの障害発生状況をリアルタイムで確認できるサービスです。
AWSに限らず、主要なWebサービスの障害もチェックできます。
メリットとデメリット
SNS上の書き込みを基に障害を検出するため、実際には障害が起きていない場合でも誤検出されることがありますが、公式情報よりも早く障害を把握できることがあります。
信頼性には少し欠けますが、「AWSで障害が発生しているかもしれない」という第一報を素早く把握できるため、システム担当者にとっては非常に便利なサービスです。
X(旧Twitter)
ユーザーの反応を直接確認できる
障害の有無を素早く収集したい場合、X(旧Twitter)もおすすめです。
「AWS」で検索すると「これ障害なんじゃね?」といったユーザーの投稿がヒットすることがあります。
2024年8月19日の障害時にも、「STSで問題が発生しているかも」という投稿が目立ちました。
メリットとデメリット
SNSの特性上、情報の信頼性は低いです。しかしAWSユーザーの反応を直接確認できるため、迅速に情報を集めたいときに役立ちます。
まとめ: 信頼性のある情報はAWS Health Dashboardで。スピードを求めるならSNSも活用できる
システムに障害が発生した場合は、まずDowndetectorやSNSでAWSに障害が発生しているかを確認し、その後AWS Health Dashboardで正確な情報が通知されるのを待つのが良いでしょう。
ただし、AWS側の設備に問題がある場合は、システム担当者ができることが限られてるのが現実です。
コメント