障害の回復と事由説明(終報:2024年2月17日)
2024-02-17
本日発生いたしました、障害について下記の通りご報告させていただきます。
障害の原因
TEKKANにて、新たにログイン時のメール通知するアップデートを実施いたしましたが、その際に不良なコードが混入いたしました。そのため、正常な操作にもかかわらず、異常操作として、エラー表示されてしまう事象が発生いたしました。
また、アプリケーション設計に起因し、一部のユーザ様が本障害に気がつくための機会(障害情報・メンテナンス情報の参照などの機会)が本エラーにより失われました。
詳細は下記をご参照ください。
通常時のログイン・会員登録フロー(簡略版)
TEKKANアプリでは、ユーザ様がログイン操作や会員登録(チュートリアルへ進む)操作を実施すると、このような形で内部処理を実施しておりました。(画像はタップで拡大可能です。)
本障害は、上図「ベンダーB:アプリケーション」サーバにて実施した修正に伴い、問題が発生いたしました。
※ 実際に利用している、データベースについては関東圏・関西圏で定期的に版を交換しています。また、クラウドサービスを利用したバックアップを適宜実施しております(日本国の有事により、関東圏・関西圏のバックアップ双方が回復不可の状態となった場合を想定しており、通常の論理障害・物理障害時に利用することは想定しておりません。クラウドサービスへ保存時はAES等による暗号化により、クラウドサービス事業者が解読不可能な形式で保存します。データは海外へ転送されることがあります。)
※ 起動フローに関与しないサーバ類についての記載は省略しております。また、セキュリティに関しての記載やいくつかの処理も上図からは省略しております。
※ TEKKANアプリでは、現在の負荷率やメンテナンス性を鑑みてデータベースのレプリケーション(リードレプリカ)は利用していません。
不具合混入による、異常時のフロー
メール通知機能の搭載による、不具合の混入により、ベンダーBを利用して提供しているプログラムが以下の通り異常な動作をするようになりました。(画像タップで拡大できます。)
上図の通り、プログラムの修正にて「問題箇所①」に問題が生じ、直接の障害原因となりました。また、「問題箇所②」の処理方法に設計上の問題があったため、ユーザ様にこの障害の内容を伝達することができない可能性がございました。
暫定的な回復措置の案内(2回以降のログイン再試行)について
障害発生時に暫定的にご報告させていただいたとおり、短期間で再度正常なログイン操作を実施することで本エラーが発生しなくなるケースがございました。この事象については、サーバ側の負荷軽減の仕様に起因し、一時的に取得していたデータを元にユーザの認証操作が可能であったためでした。
直近で、ログイン試行を実施していた場合は、本修正の問題プログラムを経由しない形で処理が実行されました。そのため、直接原因の「問題箇所①」が顕在化しませんでした。また、「問題箇所②」は認証操作に失敗した場合に顕在化する不具合でしたので、本問題に夜影響も受けることがありませんでした。
障害からの回復
本障害から回復させるために、サーバ側のプログラム調整を実施し、2024年2月17日 17:10分頃に本変更実施前の状態へと戻すロールバック操作を実施しました。ユーザ様のデータはロールバックされておらず、そのまま利用いただけます。
なお、ロールバック時に必要な操作が多種であったこと、他部品への影響が懸念されたことから、修復の実行までにお時間をいただきました。
今後について
本障害は、リリース前のステージング環境(リリース前の環境)から本番環境(ユーザ様が普段利用するサーバ環境)へのデータ移行手順の誤りにより発生いたしました。本事象と類似事象が今後発生しないよう、作業手順を精査後に適用作業を実施いたします。
また、アプリ仕様についても段階的に見直し、問題となり得る実装方法については順次見直しを進めてまいります。
ご不明点など
TEKKAN運営までお問い合わせください。(TEKKANアプリ内、下部メニュー「メニュー」→「ご意見やお問い合わせ」→「ご質問やお問い合わせ」よりご連絡いただけます。)
または、電子メールにて「team@support.tekkan.net」までご連絡ください。
コメント
0 件のコメント :
コメントを投稿