翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推論パイプラインのトラブルシューティング
推論パイプラインの問題のトラブルシューティングを行うには、CloudWatch のログとエラーメッセージを使います。Amazon SageMaker AI 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使用している場合は、アクセス許可の問題が発生することもあります。必要な許可を付与するには、Amazon Elastic Container Registry (Amazon ECR) ポリシーを作成します。
トピック
推論パイプラインの Amazon ECR アクセス許可のトラブルシューティングを行う
SageMaker AI 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使用する場合は、Amazon ECR ポリシーが必要です。このポリシーにより、Amazon ECR リポジトリは SageMaker AI がイメージをプルするためのアクセス許可を付与できます。このポリシーには以下のアクセス許可が含まれています。
{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }
CloudWatch Logs を使用して SageMaker AI 推論パイプラインをトラブルシューティングする
SageMaker AI は、各コンテナの次のパスで、推論パイプラインを Amazon CloudWatch にデプロイするエンドポイントのコンテナログを発行します。
/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}
例えば、このエンドポイントのログは、次のロググループとストリームに発行されます。
EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2
ログストリームは、同じソースを共有する一連のログイベントです。CloudWatch に記録される個別のログソースは、個別にログストリーミングを構成します。ロググループは、保持、モニタリング、アクセス制御について同じ設定を共有するログストリームのグループです。
ロググループとストリームを表示するには
CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/
) を開きます。 -
ナビゲーションページで [Logs] (ログ) を選択します。
-
[ロググループ] で、
MyInferencePipelinesEndpoint
をフィルタリングします。 -
ログストリームを表示するには、CloudWatch の [Log Groups] (ロググループ) ページで [
MyInferencePipelinesEndpoint
] を選択し、[Search Log Group] (ロググループの検索) を選択します。
SageMaker AI が発行するログのリストについては、「」を参照してください推論パイプラインのログとメトリクス。
エラーメッセージを使用して推論パイプラインをトラブルシューティングする
推論パイプラインのエラーメッセージは、失敗したコンテナを示します。
SageMaker AI がエンドポイントを呼び出すときにエラーが発生した場合、サービスは失敗したコンテナを示す ModelError
(エラーコード 424) を返します。リクエストペイロード (前のコンテナからのレスポンス) が 5 MB の制限を超える場合、SageMaker AI は次のような詳細なエラーメッセージを提供します。
MyContainerName1 からステータスコード 200 のレスポンスを受信しました。ただし、MyContainerName1 から MyContainerName2 へのリクエストペイロードは 6,000,000 バイトで、これは最大制限の 5 MB を超えています。
SageMaker AI がエンドポイントの作成中にコンテナが ping ヘルスチェックに失敗した場合、 が返されClientError
、最後のヘルスチェックで ping チェックに失敗したすべてのコンテナが表示されます。