推論パイプラインのトラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論パイプラインのトラブルシューティング

推論パイプラインの問題のトラブルシューティングを行うには、CloudWatch のログとエラーメッセージを使います。Amazon SageMaker AI 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使用している場合は、アクセス許可の問題が発生することもあります。必要な許可を付与するには、Amazon Elastic Container Registry (Amazon ECR) ポリシーを作成します。

推論パイプラインの Amazon ECR アクセス許可のトラブルシューティングを行う

SageMaker AI 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使用する場合は、Amazon ECR ポリシーが必要です。このポリシーにより、Amazon ECR リポジトリは SageMaker AI がイメージをプルするためのアクセス許可を付与できます。このポリシーには以下のアクセス許可が含まれています。

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

CloudWatch Logs を使用して SageMaker AI 推論パイプラインをトラブルシューティングする

SageMaker AI は、各コンテナの次のパスで、推論パイプラインを Amazon CloudWatch にデプロイするエンドポイントのコンテナログを発行します。

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

例えば、このエンドポイントのログは、次のロググループとストリームに発行されます。

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

ログストリームは、同じソースを共有する一連のログイベントです。CloudWatch に記録される個別のログソースは、個別にログストリーミングを構成します。ロググループは、保持、モニタリング、アクセス制御について同じ設定を共有するログストリームのグループです。

ロググループとストリームを表示するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. ナビゲーションページで [Logs] (ログ) を選択します。

  3. [ロググループ] で、MyInferencePipelinesEndpoint をフィルタリングします。

    推論パイプラインエンドポイントでフィルタリングされた CloudWatch ロググループ。
  4. ログストリームを表示するには、CloudWatch の [Log Groups] (ロググループ) ページで [MyInferencePipelinesEndpoint] を選択し、[Search Log Group] (ロググループの検索) を選択します。

    推測パイプライン用の CloudWatch ログストリーム。

SageMaker AI が発行するログのリストについては、「」を参照してください推論パイプラインのログとメトリクス

エラーメッセージを使用して推論パイプラインをトラブルシューティングする

推論パイプラインのエラーメッセージは、失敗したコンテナを示します。

SageMaker AI がエンドポイントを呼び出すときにエラーが発生した場合、サービスは失敗したコンテナを示す ModelError (エラーコード 424) を返します。リクエストペイロード (前のコンテナからのレスポンス) が 5 MB の制限を超える場合、SageMaker AI は次のような詳細なエラーメッセージを提供します。

MyContainerName1 からステータスコード 200 のレスポンスを受信しました。ただし、MyContainerName1 から MyContainerName2 へのリクエストペイロードは 6,000,000 バイトで、これは最大制限の 5 MB を超えています。

SageMaker AI がエンドポイントの作成中にコンテナが ping ヘルスチェックに失敗した場合、 が返されClientError、最後のヘルスチェックで ping チェックに失敗したすべてのコンテナが表示されます。