平素よりTEKKANをご利用いただき、誠にありがとうございます。
2026年1月中旬以降、当サービスにおいてアクセス障害が頻発し、長時間にわたりアプリをご利用いただけない事象が複数回発生いたしました。
現在、8,500名以上のユーザー様にご利用いただいており、日々の修練の記録をお預かりしている立場でありながら、多大なるご不便とご迷惑をおかけしておりますことを、深くお詫び申し上げます。
本件に関する詳細な経緯、および今後の対策につきまして、以下の通りご報告いたします。
1. データの保全状況について
一連の障害において、ユーザー皆様のデータの消失および破損は一切発生しておりません。
今回のシステム停止は、ネットワーク異常やマシントラブルをシステムが検知した際、「不整合なデータが書き込まれることを防ぎ、データベースを安全に緊急停止させる」という保護機能(フェイルセーフ)が正常に稼働した結果によるものです。
また、データは定期的に別拠点へのバックアップを実施しており、データの安全性は確保されておりますい。
2. 障害頻発の根本原因
障害の根本的な原因は、本年1月に実施した「新サーバー環境へのシステム基盤移行」に起因しております。
今後のサービス拡張や新機能提供を見据え、従来の単一サーバー構成から、3台のサーバーが連携する冗長化構成(分散型システム)へと刷新いたしました。
本来は耐障害性を高めるための施策でしたが、無料サービスとして運用するための限られたサーバースペックであること、および新環境におけるネットワーク瞬断に対する許容値の調整不足が重なり、結果としてシステム全体が停止しやすい状態を招いておりました。
3. 直近の主な障害事象の概要
- 1月16日(影響時間:約17時間):
夜間メンテナンス作業中、1台のサーバーでエラーが発生いたしました。残存サーバーへの負荷集中により連鎖的なダウンが発生し、データベースの安全装置が作動いたしました。新環境における復旧手順の確立途上であったため、サービスの再開に長時間を要しました。 - 1月30日(影響時間:約9時間半):
利用中のサーバー提供事業者における一時的なネットワーク障害により、サーバー間の通信が途絶いたしました。本件は安全確保のため手動での復旧作業が必要となりましたが、個人開発という運営体制の制約上、平日日中帯における即時の対応が難しく、復旧が夜間となったことが長時間のサービス停止に繋がりました。 - 2月23日・25日(影響時間:数時間):
一時的なネットワーク通信の遅延等によりサーバー間の連携が失われ、再度データベースの安全装置が作動し停止いたしました。詳細な原因については現在も調査を継続しております。
4. 今後の対策と見通し
本事象を受け、現在以下の対策を講じております。
- サーバースペックの段階的増強:
突発的な負荷上昇に耐えうるよう、順次サーバーリソースの引き上げを実施・検討いたします。 - システム設定の最適化:
軽微な通信遅延によるデータベース停止を防ぐための閾値見直しや、連携解除時の自動復旧プロセスの改修を進めます。
今後も、サービスの安定稼働に向けた改善作業を順次実施して参ります。
事態を真摯に受け止め、皆様に安心してご利用いただけるよう全力で改善に努めてまいります。
重ねまして、多大なるご迷惑をおかけしておりますことを深くお詫び申し上げます。
今後ともTEKKANを何卒よろしくお願い申し上げます。
【補足】技術的な背景について
本事象に関する技術的な詳細につきまして、以下の通り補足いたします。
新たに導入した「分散型システム」と停止のメカニズム
本サービスでは、今後の拡張性と可用性の向上を目的として「Docker Swarm」および「InnoDB Cluster」を採用し、複数のマシンが通信し合いながら1つのシステムとして稼働する構成へと移行いたしました。
この構成では、サーバー群が正常に稼働しているかを「多数決(過半数の合意=クォーラムの獲得)」によって常に確認しております(3台構成の場合、2台以上の通信確立が必要)。
しかしながら、ネットワーク障害等でこの「過半数の合意」が失われた(クォーラムを喪失した)場合、InnoDB Clusterはシステムを強制的に停止させます。これは、ネットワークから隔離されたサーバー同士が別々のデータを書き込み、データベース全体が破壊される現象(スプリットブレイン)を防ぐための仕様です。
データの完全性を担保するための厳格な設計思想に基づき、このような事象の際は管理者によるデータ整合性の確認を要するため、自動復旧は行われません。結果として、データの消失を防ぐ一方で長時間のサービス停止を伴う事態となりました。
0 件のコメント:
コメントを投稿