Amazon CloudWatch で Amazon SageMaker AI をモニタリングするためのメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon CloudWatch で Amazon SageMaker AI をモニタリングするためのメトリクス

Amazon CloudWatch を使用して Amazon SageMaker AI をモニタリングすることで、raw データを収集し、読み取り可能なほぼリアルタイムのメトリクスに加工できます。これらの統計は 15 か月間保持されます。これを利用して履歴情報にアクセスすることで、ウェブアプリケーションやサービスの動作をより的確に把握できます。ただし、 Amazon CloudWatch コンソールでは、検索が過去 2 週間以内に更新されたメトリクスに制限されます。この制限により、最新のジョブが名前空間に表示されるようになります。

検索を使用せずにメトリクスをグラフ化するには、ソースビューでその正確な名前を指定します。また、特定のしきい値を監視するアラームを設定し、これらのしきい値に達したときに通知を送信したりアクションを実行したりできます。詳細については、「Amazon CloudWatch ユーザーガイド」を参照してください。

SageMaker AI エンドポイント呼び出しメトリクス

AWS/SageMaker 名前空間には、InvokeEndpoint への呼び出しからの次のリクエストメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

次の図は、SageMaker AI エンドポイントが Amazon SageMaker Runtime API とどのようにやり取りするかを示しています。エンドポイントにリクエストを送信してからレスポンスを受信するまでの全体の所要時間は、次の 3 つの要素によって異なります。

  • ネットワークレイテンシー — SageMaker ランタイム API にリクエストを送信してから、レスポンスを受信するまでにかかる時間です。

  • オーバーヘッドレイテンシー — SageMaker ランタイム API からモデルコンテナにリクエストを転送してから、そのレスポンスが返されるまでにかかる時間です。

  • モデルレイテンシー — モデルコンテナがリクエストを処理してレスポンスを返すまでにかかる時間です。

合計レイテンシーがネットワーク、オーバーヘッド、モデルのレイテンシーの合計であることを示す図。

合計レイテンシーの詳細については、Amazon SageMaker AI リアルタイム推論エンドポイントの負荷テストのベストプラクティス」を参照してください。CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html

エンドポイント呼び出しメトリクス

メトリクス 説明
ConcurrentRequestsPerCopy

推論コンポーネントが受信する同時リクエストの数。推論コンポーネントのコピーごとに正規化されます。

有効な統計: 最小、最大

ConcurrentRequestsPerModel

モデルが受信する同時リクエストの数。

有効な統計: 最小、最大

Invocation4XXErrors

4xx HTTP レスポンスコードを返したモデルの InvokeEndpoint リクエスト数。各 4xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

Invocation5XXErrors

5xx HTTP レスポンスコードを返したモデルの InvokeEndpoint リクエスト数。各 5xx レスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

InvocationModelErrors

2XX HTTP レスポンスに至らなかったモデル呼び出しリクエストの数。これには、4XX/5XX ステータスコード、低レベルのソケットエラー、不正な HTTP レスポンス、リクエストタイムアウトが含まれます。各エラーレスポンスについて、1 が送信されます。それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

Invocations

モデルエンドポイントに送信された InvokeEndpoint リクエスト数。

モデルエンドポイントに送信されたリクエストの合計数を得るには、Sum 統計を使用します。

単位: なし

有効な統計: Sum

InvocationsPerCopy

推論コンポーネントのコピーごとに正規化された呼び出しの数。

有効な統計: Sum

InvocationsPerInstance

各 ProductionVariant で InstanceCount によって正規化された、モデルに送信された呼び出しの数。各リクエストで値として 1/numberOfInstances が送信されます。numberOfInstances はリクエスト時にエンドポイントの背後にある ProductionVariant のアクティブなインスタンスの数です。

単位: なし

有効な統計: Sum

ModelLatency

モデルが SageMaker ランタイム API リクエストに応答するのにかかる時間間隔。この間隔には、リクエストを送信し、モデルのコンテナからレスポンスを取得するのにかかるローカル通信時間が含まれます。また、コンテナ内で推論を完了するのにかかる時間も含まれます。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelSetupTime

サーバーレスエンドポイントの新しいコンピューティングリソースを起動するのにかかる時間。時間は、モデルのサイズ、モデルのダウンロードにかかる時間、コンテナの起動時間によって異なります。

単位: マイクロ秒

有効な統計: 平均、最小、最大、サンプル数、パーセンタイル

OverheadLatency

SageMaker AI オーバーヘッドによってクライアントリクエストに応答するのにかかる時間に追加された時間間隔。この間隔は、SageMaker AI がリクエストを受信してからクライアントにレスポンスを返すまでの時間から、 を引いた値で測定されますModelLatency。オーバーヘッドレイテンシーは、リクエストとレスポンスのペイロードサイズ、リクエストの頻度、リクエストの認証/認可など、複数の要因によって異なります。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

エンドポイント呼び出しメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

InferenceComponentName

推論コンポーネントの呼び出しメトリクスをフィルタリングします。

SageMaker AI 推論コンポーネントのメトリクス

/aws/sagemaker/InferenceComponents 名前空間には、推論コンポーネントをホストするエンドポイントの InvokeEndpoint に対する呼び出しからの、次のメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

メトリクス 説明
CPUUtilizationNormalized

推論コンポーネントのコピーごとにレポートされる CPUUtilizationNormalized メトリクスの値。値の範囲は 0% ~ 100% です。推論コンポーネントのコピーの設定で NumberOfCpuCoresRequired パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。

GPUMemoryUtilizationNormalized

推論コンポーネントのコピーごとにレポートされる GPUMemoryUtilizationNormalized メトリクスの値。

GPUUtilizationNormalized

推論コンポーネントのコピーごとにレポートされる GPUUtilizationNormalized メトリクスの値。推論コンポーネントのコピーの設定で NumberOfAcceleratorDevicesRequired パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。

MemoryUtilizationNormalized

推論コンポーネントのコピーごとにレポートされる MemoryUtilizationNormalized の値。推論コンポーネントのコピーの設定で MinMemoryRequiredInMb パラメータを設定すると、このメトリクスは予約に対する使用率を示します。それ以外の場合、このメトリクスは上限に対する使用率を示します。

推論コンポーネンのトメトリクスのディメンション

ディメンション 説明
InferenceComponentName

推論コンポーネントのメトリクスをフィルタリングします。

SageMaker AI マルチモデルエンドポイントメトリクス

AWS/SageMaker 名前空間には、InvokeEndpoint の呼び出しからの次のモデル読み込みメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html

マルチモデルエンドポイントモデルのロードメトリクス

メトリクス 説明
ModelLoadingWaitTime

推論を実行するために、呼び出しリクエストがターゲットモデルのダウンロード、ロード、またはその両方を待機した時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelUnloadingTime

コンテナの UnloadModel API コールを介してモデルをアンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelDownloadingTime

Amazon Simple Storage Service (Amazon S3) からモデルをダウンロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelLoadingTime

コンテナの LoadModel API コールを介してモデルをロードするのにかかった時間間隔。

単位: マイクロ秒

有効な統計: Average、Sum、Min、Max、Sample Count

ModelCacheHit

モデルが既にロードされているマルチモデルエンドポイントに送信された InvokeEndpoint リクエストの数。

Average 統計は、モデルが既にロードされていたリクエストの比率を示します。

単位: なし

有効な統計: Average、Sum、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

/aws/sagemaker/Endpoints 名前空間には、InvokeEndpoint の呼び出しからの次のインスタンスメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

CloudWatch メトリクスの保持期間の詳細については、Amazon CloudWatch API リファレンスの「GetMetricStatistics」を参照してください。https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html

マルチモデルエンドポイントモデルのインスタンスメトリクス

メトリクス 説明
LoadedModelCount

マルチモデルエンドポイントのコンテナにロードされたモデルの数。このメトリクスはインスタンスあたりで発行されます。

1 分間の Average 統計は、ロードされたモデルのインスタンスあたりの平均数を示します。

Sum 統計は、エンドポイントのすべてのインスタンス間でロードされたモデルの総数を示します。

モデルがエンドポイントの複数のコンテナにロードされる可能性があるため、このメトリクスが追跡するモデルは必ずしも一意ではありません。

単位: なし

有効な統計: Average、Sum、Min、Max、Sample Count

マルチモデルエンドポイントモデルのロードメトリクスのディメンション

ディメンション 説明
EndpointName, VariantName

指定のエンドポイントおよびバリアントの ProductionVariant のエンドポイント呼び出しメトリクスをフィルタリングします。

SageMaker AI ジョブとエンドポイントメトリクス

/aws/sagemaker/ProcessingJobs/aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs/aws/sagemaker/Endpoints 名前空間には、トレーニングジョブおよびエンドポイントインスタンスに関する次のメトリクスが含まれています。

メトリクスは、1 分間隔で利用できます。

注記

Amazon CloudWatch は高解像度カスタムメトリクスをサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「GetMetricStatistics」を参照してください。

ヒント

100 ミリ秒 (0.1 秒) の粒度まで細かい分解能でトレーニングジョブをプロファイリングし、トレーニングメトリクスをいつでもカスタム分析できるよう無期限に Amazon S3 に保存する場合は、Amazon SageMaker Debugger の使用を検討してください。SageMaker Debugger には、一般的なトレーニング問題を自動的に検出するためのルールが組み込まれており、このルールが、ハードウェアリソースの使用率の問題 (CPU、GPU、I/O のボトルネックなど) を検出します。また、モデルが収束しない問題 (オーバーフィット、勾配の消失、テンソルの爆発など) も検出します。SageMaker Debugger は、Studio Classic とそのプロファイリングレポートを通じて可視化機能も提供します。デバッガーの可視化機能を確認するには、「SageMaker デバッガーインサイトダッシュボードのチュートリアル」、「デバッガープロファイリングレポートのチュートリアル」、「SmDebug クライアントライブラリを使用してデータを分析する」を参照してください。

処理ジョブ、トレーニングジョブ、バッチ変換ジョブ、およびエンドポイントインスタンスメトリクス

メトリクス 説明
CPUReservation

インスタンスのコンテナによって予約された CPU の合計。値の範囲は 0% ~ 100% です。推論コンポーネントの設定では、NumberOfCpuCoresRequired パラメータを使用して CPU 予約を設定します。例えば、4 つの CPU があり、2 つが予約されている場合、CPUReservation メトリクスは 50% です。

CPUUtilization 個々の CPU コアの使用率の合計。各コアの CPU 使用率の範囲は 0~100 です。例えば、CPU が 4 つの場合、CPUUtilization の範囲は 0%~400% になります。処理ジョブの場合、値はインスタンス上の処理コンテナの CPU 使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの CPU 使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの CPU 使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの CPU 使用率の合計です。

注記

マルチインスタンスジョブの場合、インスタンスごとに CPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU 使用率が表示されます。

単位: パーセント

CPUUtilizationNormalized

個々の CPU コアの使用率の正規化された合計。値の範囲は 0% ~ 100% です。例えば、4 つの CPU があり、CPUUtilization メトリクスが 200% の場合、CPUUtilizationNormalized メトリクスは 50% です。

DiskUtilization

インスタンス上のコンテナによって使用されているディスク容量の割合。この値の範囲は 0%~100% です。このメトリクスは、バッチ変換ジョブではサポートされていません。

処理ジョブの場合、値はインスタンス上の処理コンテナのディスク容量使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのディスク容量使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのディスク容量使用率の合計です。

単位: パーセント

注記

マルチインスタンスジョブの場合、インスタンスごとにディスク使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均ディスク使用率が表示されます。

GPUMemoryUtilization

インスタンス上のコンテナによって使用されている GPU メモリの割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、GPUMemoryUtilization の範囲は 0%~400% になります。

処理ジョブの場合、値はインスタンス上の処理コンテナの GPU メモリ使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU メモリ使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU メモリ使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU メモリ使用率の合計です。

注記

マルチインスタンスジョブの場合、インスタンスごとに GPU メモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU メモリ使用率が表示されます。

単位: パーセント

GPUMemoryUtilizationNormalized

インスタンス上のコンテナによって使用されている GPU メモリの正規化された割合。値の範囲は 0% ~ 100% です。例えば、4 つの GPU があり、GPUMemoryUtilization メトリクスが 200% の場合、GPUMemoryUtilizationNormalized メトリクスは 50% です。

GPUReservation

インスタンスのコンテナによって予約された GPU の合計。値の範囲は 0% ~ 100% です。推論コンポーネントの設定では、NumberOfAcceleratorDevicesRequired によって GPU 予約を設定します。例えば、4 つの GPU があり、2 つが予約されている場合、GPUReservation メトリクスは 50% です。

GPUUtilization

インスタンス上のコンテナによって使用されている GPU の割合。値の範囲は 0~100 で、GPU の数を乗算します。例えば、GPU が 4 つの場合、GPUUtilization の範囲は 0%~400% になります。

処理ジョブの場合、値はインスタンス上の処理コンテナの GPU 使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナの GPU 使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナの GPU 使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナの GPU 使用率の合計です。

注記

マルチインスタンスジョブの場合、インスタンスごとに GPU 使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 GPU 使用率が表示されます。

単位: パーセント

GPUUtilizationNormalized

インスタンス上のコンテナによって使用されている GPU の正規化された割合。値の範囲は 0% ~ 100% です。例えば、4 つの GPU があり、GPUUtilization メトリクスが 200% の場合、GPUUtilizationNormalized メトリクスは 50% です。

MemoryReservation

インスタンスのコンテナによって予約されたメモリの合計。値の範囲は 0% ~ 100% です。推論コンポーネントの設定では、MinMemoryRequiredInMb パラメータを使用してメモリ予約を設定します。例えば、32 GiB のインスタンスが 1024 MB を予約した場合、MemoryReservation メトリクスは 29.8% です。

MemoryUtilization

インスタンス上のコンテナによって使用されているメモリの割合。この値の範囲は 0%~100% です。

処理ジョブの場合、値はインスタンス上の処理コンテナのメモリ使用率です。

トレーニングジョブの場合、値はインスタンス上のアルゴリズムコンテナのメモリ使用率です。

バッチ変換ジョブの場合、値はインスタンス上の変換コンテナのメモリ使用率です。

エンドポイントのバリアントの場合、値はインスタンス上のプライマリコンテナと補足コンテナのメモリ使用率の合計です。

単位: パーセント

注記

マルチインスタンスジョブの場合、インスタンスごとにメモリ使用率メトリクスがレポートされます。ただし、CloudWatch のデフォルトビューには、すべてのインスタンスの平均メモリ使用率が表示されます。

処理ジョブ、トレーニングジョブおよびバッチ変換ジョブインスタンスメトリクスのディメンション

ディメンション 説明
Host

処理ジョブの場合、このディメンションの値は [processing-job-name]/algo-[instance-number-in-cluster] の形式になります。このディメンションを使用して、指定された処理ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/ProcessingJobs 名前空間にのみ存在します。

トレーニングジョブの場合、このディメンションの値は [training-job-name]/algo-[instance-number-in-cluster] の形式になります。このディメンションを使用して、指定されたトレーニングジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/TrainingJobs 名前空間にのみ存在します。

バッチ変換ジョブの場合、このディメンションの値は [transform-job-name]/[instance-id] の形式になります。このディメンションを使用して、指定されたバッチ変換ジョブとインスタンスのインスタンスメトリクスをフィルタリングします。このディメンション形式は、/aws/sagemaker/TransformJobs 名前空間にのみ存在します。

SageMaker Inference Recommender ジョブメトリクス

/aws/sagemaker/InferenceRecommendationsJobs 名前空間には、推論レコメンデーションジョブの以下のメトリクスが含まれます。

Inference Recommender メトリクス

メトリクス 説明
ClientInvocations

Inference Recommender が確認した、モデルエンドポイントに送信された InvokeEndpoint リクエストの数。

単位: なし

有効な統計: Sum

ClientInvocationErrors

Inference Recommender が確認した、失敗した InvokeEndpoint リクエストの数。

単位: なし

有効な統計: Sum

ClientLatency

Inference Recommender が確認した、InvokeEndpoint 呼び出しの送信からレスポンスの受信までにかかった時間間隔。時間はミリ秒単位であるのに対し、ModelLatency エンドポイント呼び出しメトリックはマイクロ秒単位であることに注意してください。

単位: ミリ秒

有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル

NumberOfUsers

モデルエンドポイントに InvokeEndpoint リクエストを送信する同時ユーザーの数。

単位: なし

有効な統計: 最大、最小、平均

Inference Recommender ジョブメトリクスのディメンション

ディメンション 説明
JobName

指定した Inference Recommender ジョブの Inference Recommender ジョブメトリクスをフィルタリングします。

EndpointName

指定したエンドポイントの Inference Recommender ジョブメトリクスをフィルタリングします。

SageMaker Ground Truth メトリクス

Ground Truth メトリクス

メトリクス 説明
ActiveWorkers

プライベート作業チームの 1 人のアクティブなワーカーが、タスクを送信、リリース、または拒否しました。アクティブなワーカーの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の ActiveWorkers イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスはアクティブなワーカーの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Count

DatasetObjectsAutoAnnotated

ラベル付けジョブで自動注釈が付けられたデータセットオブジェクトの数。このメトリクスは、自動ラベル付けが有効になっている場合にのみ出力されます。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

DatasetObjectsHumanAnnotated

ラベル付けジョブで人間によって注釈が付けられたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

DatasetObjectsLabelingFailed

ラベル付けジョブでラベリングに失敗したデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

JobsFailed

1 つのラベル付けジョブが失敗しました。失敗したラベル付けジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Count

JobsSucceeded

1 つのラベル付けジョブが成功しました。成功したラベル付けジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Count

JobsStopped

1 つのラベル付けジョブが停止されました。停止したラベル付けジョブの総数を取得するには、Sum 統計を使用します。

単位: なし

有効な統計: Sum、Sample Count

TasksAccepted

1 つのタスクがワーカーによって受け入れられました。ワーカーによって受け入れられたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の TaskAccepted イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは受け入れられたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Count

TasksDeclined

1 つのタスクがワーカーによって拒否されました。ワーカーによって拒否されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の TasksDeclined イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは拒否されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Count

TasksReturned

1 つのタスクが返されました。返されたタスクの合計数を取得するには、Sum 統計を使用します。Ground Truth は、個々の TasksReturned イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは返されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Count

TasksSubmitted

1 つのタスクがプライベートワーカーによって送信/完了されました。ワーカーによって送信されたタスクの総数を取得するには、Sum 統計を使用します。Ground Truth は、個々の TasksSubmitted イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは送信されたタスクの総数を報告しないことがあります。

単位: なし

有効な統計: Sum、Sample Count

TimeSpent

プライベートワーカーによって完了したタスクにかかった時間。このメトリクスには、ワーカーが一時停止または休憩した時間は含まれません。Ground Truth は、各 TimeSpent イベントを 1 回配信しようとします。この配信が失敗した場合、このメトリクスは費やされた合計時間を報告しないことがあります。

単位: 秒

有効な統計: Sum、Sample Count

TotalDatasetObjectsLabeled

ラベル付けジョブで正常にラベリングされたデータセットオブジェクトの数。ラベル付けジョブの進行状況を表示するには、Max メトリクスを使用します。

単位: なし

有効な統計: Max

データセットオブジェクトメトリクスのディメンション

ディメンション 説明
LabelingJobName

ラベル付けジョブのデータセットオブジェクト数メトリクスをフィルタリングします。

Amazon SageMaker Feature Store メトリクス

Feature Store の消費メトリクス

メトリクス 説明
ConsumedReadRequestsUnits

指定した期間に消費された読み取り単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された読み取り単位を取得できます。

単位: なし

有効な統計: すべて

ConsumedWriteRequestsUnits

指定した期間に消費された書き込み単位の数。Feature Store のランタイム操作とそれに対応する特徴グループの消費された書き込み単位を取得できます。

単位: なし

有効な統計: すべて

ConsumedReadCapacityUnits

指定した期間に消費されたプロビジョニング済み読み取りキャパシティユニットの数。Feature Store のランタイム操作とそれに対応する特徴量グループの消費された読み取りキャパシティユニットを取得できます。

単位: なし

有効な統計: すべて

ConsumedWriteCapacityUnits

指定した期間に消費されたプロビジョニング済み書き込みキャパシティユニットの数。Feature Store のランタイム操作とそれに対応する特徴量グループの消費された書き込みキャパシティユニットを取得できます。

単位: なし

有効な統計: すべて

Feature Store 消費メトリクスのディメンション

ディメンション 説明
FeatureGroupName, OperationName

指定した特徴量グループおよび操作の Feature Store ランタイム消費メトリクスをフィルタリングします。

Feature Store 運用メトリクス

メトリクス 説明
Invocations

指定した期間に Feature Store ランタイムオペレーションに対して行われたリクエストの数。

単位: なし

有効な統計: Sum

Operation4XXErrors

Feature Store ランタイムオペレーションに対するリクエストのうち、オペレーションが 4xx HTTP レスポンスコードを返したリクエストの数。各 4xx レスポンスでは 1 が送信され、それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

Operation5XXErrors

Feature Store ランタイムオペレーションで 5xx HTTP レスポンスコードが返されたリクエストの数。各 5xx レスポンスでは 1 が送信され、それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

ThrottledRequests

リクエストがスロットリングされた Feature Store ランタイムオペレーションに対して行われたリクエストの数。スロットリングされた各リクエストでは 1 が送信され、それ以外の場合は 0 が送信されます。

単位: なし

有効な統計: 合計、平均

Latency

Feature Store ランタイムオペレーションへのリクエストを処理する時間間隔。この間隔は、SageMaker AI がリクエストを受信してからクライアントにレスポンスを返すまでの時間から測定されます。

単位: マイクロ秒

有効な統計: 平均、合計、最小、最大、サンプル数、パーセンタイル

Feature Store 運用メトリクスのディメンション

ディメンション 説明

FeatureGroupName, OperationName

指定した特徴量グループと操作の Feature Store ランタイムオペレーションメトリクスをフィルタリングします。これらのディメンションは、GetRecord、PutRecord、DeleteRecord などの非バッチオペレーションに使用できます。
OperationName

指定した操作の Feature Store ランタイムオペレーションメトリクスをフィルタリングします。このディメンションは BatchGetRecord などのバッチオペレーションに使用できます。

SageMaker パイプラインメトリクス

AWS/Sagemaker/ModelBuildingPipeline 名前空間には、次のパイプライン実行のメトリクスが含まれます。

パイプライン実行メトリクスには、次の 2 つのカテゴリがあります。

  • すべてのパイプラインの実行メトリクス - アカウントレベルのパイプライン実行メトリクス (現在のアカウントのすべてのパイプライン)

  • パイプライン別の実行メトリクス - パイプラインごとのパイプライン実行メトリクス

メトリクスは、1 分間隔で利用できます。

パイプライン実行メトリクス

メトリクス 説明
ExecutionStarted

開始されたパイプライン実行の数。

単位: カウント

有効な統計: 合計、平均

ExecutionFailed

失敗したパイプライン実行の数。

単位: カウント

有効な統計: 合計、平均

ExecutionSucceeded

成功したパイプライン実行の数。

単位: カウント

有効な統計: 合計、平均

ExecutionStopped

停止したパイプライン実行の数。

単位: カウント

有効な統計: 合計、平均

ExecutionDuration

パイプライン実行が実行された時間 (ミリ秒) 。

単位: ミリ秒

有効な統計: Average、Sum、Min、Max、Sample Count

パイプライン別の実行メトリクスのディメンション

ディメンション 説明
PipelineName

指定したパイプラインのパイプライン実行メトリクスをフィルタリングします。

パイプラインステップメトリクス

AWS/Sagemaker/ModelBuildingPipeline 名前空間には、次のパイプラインステップのメトリクスが含まれます。

メトリクスは、1 分間隔で利用できます。

メトリクス 説明
StepStarted

開始されたステップの数。

単位: カウント

有効な統計: 合計、平均

StepFailed

失敗したステップの数。

単位: カウント

有効な統計: 合計、平均

StepSucceeded

成功したステップの数。

単位: カウント

有効な統計: 合計、平均

StepStopped

停止したステップの数。

単位: カウント

有効な統計: 合計、平均

StepDuration

ステップが実行された時間 (ミリ秒) 。

単位: ミリ秒

有効な統計: Average、Sum、Min、Max、Sample Count

パイプラインステップメトリクスのディメンション

ディメンション 説明
PipelineName, StepName

指定したパイプラインとステップのステップメトリクスをフィルタリングします。