5月14日、当社の監視システムは、主要APIエンドポイント(ユーザーチェックアウトおよびログインサービス)におけるトランザクション処理時間の大幅な劣化を検出しました。根本原因分析(RCA)の結果、インシデントは最近展開された設定の更新によって引き起こされたと特定されました。この設定変更は、内部データベース接続プールの最大同時接続制限を、最小動作要件を下回る値に誤って調整したことに関係しています。この設定ミスによりリソース競合が発生し、深刻なキューの滞留と大幅なトランザクション遅延(SLAで定められた500ミリ秒に対し最大4.5秒)を引き起こしました。インシデントは解決までに120分間継続し、その間に約18%のユーザー取引が深刻な遅延またはタイムアウトを経験しました。顧客データの侵害はありませんでした。問題は、問題のある設定ファイルを隔離し、以前の安定した状態(バージョン2.1.0)への制御されたロールバックを実施することで解決され、サービス安定性は直後に復旧しました。再発防止策として、当社はリソース割り当ての変更に対してピーク負荷をシミュレートする必須の自動デプロイ前検証チェック(APVC)を導入します。さらに、主要リソース変数に対する堅牢な境界チェックを確実にするため、すべて設定管理テンプレートの即時監査を実施中です。
Source: Base says configuration change caused transaction delays, fixes issue
【免責事項】当サイトはZODIAC AIエンジンを用いた情報集約に基づき作成されています。情報の正確性には細心の注意を払っておりますが、その内容を保証するものではありません。本記事は投資助言を目的としたものではなく、投資に関する最終決定は必ずご自身の判断で行ってください。



コメント