本番モニタリング
さまざまなタイミングとロード条件でパフォーマンスを測定することにより、お客様の環境で通常の DAX のパフォーマンスのベースラインを確定する必要があります。DAX をモニタリングするには、モニタリングの履歴データを保存することを検討します。保存データを、最新のパフォーマンスデータと比較するベースラインとして使用し、通常のパフォーマンスのパターンやパフォーマンスの異常を検出して、問題への対応を検討することができます。
ベースラインを確立するには、最低でも、ロードテスト中と本番環境の両方で次の項目をモニタリングする必要があります。
-
CPU 使用率とスロットル済みのリクエスト。これにより、クラスター内でより大きなノードタイプを使用する必要があるかどうかを判断できます。クラスターの CPU 使用率は、
CPUUtilization
CloudWatch メトリクスで利用できます。このメトリクスの平均統計は、クラスター内のすべてのノードの平均 CPU 使用率ビューを提供します。クラスターのスケーリングの決定には、すべてのノードの最大使用率である最大統計を使用することをお勧めします。注記
AWS は、
CPUUtilization
メトリクスの詳細度を改善しました。メトリクスの変更は、2024 年 5 月 17 日から 2024 年 6 月 22 日の間に行われます。 -
オペレーションのレイテンシー (クライアント側で測定) は、アプリケーションのレイテンシー要件内で一貫して維持する必要があります。
-
ErrorRequestCount
、FaultRequestCount
、およびFailedRequestCount
CloudWatch メトリクスからわかるように、エラー率は低いままにしておきます。 -
ネットワークバイトの消費量。これにより、クラスターでより多くのノードを使用するか、より大きなノードタイプを使用するかを判断できます。消費量をモニタリングするには、CloudWatch で利用可能な
BaselineNetworkBytesInUtilization
とBaselineNetworkBytesOutUtilization
のメトリクスにアラートを設定します。これにより、受信トラフィックと送信トラフィックそれぞれについて、インスタンスタイプで使用可能なネットワーク帯域幅の消費率を確認できます。 -
キャッシュメモリの使用率と削除されたサイズ。これにより、クラスタのノードタイプに作業セットを保持するのに十分なメモリがあるかどうかを判断し、ない場合はより大きなノードタイプに切り替えることができます。
注記
キャッシュミスや書き込みが多数発生すると、キャッシュメモリの使用率が 100% まで増加し、可用性のダウンタイムが発生する可能性があります。
-
クライアント接続。これを使用して、クラスターへの接続に原因がわからないスパイクがあるかどうかをモニターできます。