7/17の3時ごろ(日本時間)から、NAサーバに接続できない状況について、Senior Systems AdministratorのRincewind氏が公式フォーラムで説明を行っています。
July 16th : NA platform outage - League of Legends Community
サモナーの皆さん、こんにちは。
今日起こったことをこちらに書きます。NAプラットフォームが発狂し、それを全体的に防ぎました。
要約:パッチ適用後のプラットフォーム再起動の間、エラーが出ていたのを見過ごしてしまっていました。不幸にもそれを修正しなかったため、そのエラーが原因で、時間が経過した後にプラットフォームが非常に不安定になってしまいました。
詳しい説明:
プラットフォームには、データベースに格納されている静的・動的設定値があり、プラットフォームが起動する時にそれが設定されます。静的設定値はプラットフォームが再起動する間も保たれます。
今日プラットフォームを起動した時、静的設定値がロードされませんでした。滅多にないことなので、自動化されたパッチ適用プロセス固有のエラーを見つけることができませんでした。
プラットフォームは数時間稼働していた時は重要な設定値が失われたままで、ロードの負荷でプラットフォームが崩壊しました。以下の手順を踏むことでプラットフォームの負荷を和らげ、問題を修正しようとしています。
1) ログインの停止
2) 全queueの停止
以上の手順により、全てのプレイヤーが落ちてしまい、とんでもない量のログインキューが起こるよりも、既にプラットフォームにログイン済のプレイヤーは、ログイン状態を維持できているようにしています。
私たちは消失している設定値をロードしましたが、ログ中のエラーにより、安全になったという自信が持てない状態です。次にプラットフォームの再起動を行います。これは予防できた事故であったと記録することにします。将来、このような事故が起こらないように、以下のような手順を踏むことにします。
1) スケープゴートとなるべきエンジニアを見つけ、そのエンジニアに倒れるまで腕立て伏せをさせる。(責任のあるチームにいる私たち全員にとってつらいことだと思います)
2) パッチ作業中のエラー検出を改善する。
以上の手順により、全てのプレイヤーが落ちてしまい、とんでもない量のログインキューが起こるよりも、既にプラットフォームにログイン済のプレイヤーは、ログイン状態を維持できているようにしています。
私たちは消失している設定値をロードしましたが、ログ中のエラーにより、安全になったという自信が持てない状態です。次にプラットフォームの再起動を行います。これは予防できた事故であったと記録することにします。将来、このような事故が起こらないように、以下のような手順を踏むことにします。
1) スケープゴートとなるべきエンジニアを見つけ、そのエンジニアに倒れるまで腕立て伏せをさせる。(責任のあるチームにいる私たち全員にとってつらいことだと思います)
2) パッチ作業中のエラー検出を改善する。
質問に答えようと思うので、しばらくの間フォーラムにいることにします。
0 件のコメント:
コメントを投稿