推論パイプラインのトラブルシューティング

推論パイプラインの問題をトラブルシューティングするには、 CloudWatch ログとエラーメッセージを使用します。Amazon 組み込みアルゴリズムを含むパイプラインでカスタム Docker SageMaker イメージを使用している場合は、アクセス許可の問題が発生する可能性もあります。必要なアクセス許可を付与するには、Amazon Elastic Container Registry (Amazon ECR) ポリシーを作成します。

トピック

推論パイプラインの Amazon アクセスECR許可のトラブルシューティング
CloudWatch ログを使用した SageMaker 推論パイプラインのトラブルシューティング
エラーメッセージを使用して推論パイプラインをトラブルシューティングする

推論パイプラインの Amazon アクセスECR許可のトラブルシューティング

SageMaker 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使用する場合は、Amazon ECRポリシーが必要です。このポリシーにより、Amazon ECRリポジトリはイメージをプルするアクセス許可を SageMaker に付与できます。このポリシーには以下のアクセス許可が含まれています。


{
    "Version": "2008-10-17",
    "Statement": [
        {
            "Sid": "allowSageMakerToPull",
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": [
                "ecr:GetDownloadUrlForLayer",
                "ecr:BatchGetImage",
                "ecr:BatchCheckLayerAvailability"
            ]
        }
    ]
}

CloudWatch ログを使用した SageMaker 推論パイプラインのトラブルシューティング

SageMaker は、各コンテナの次のパス CloudWatch で推論パイプラインを Amazon にデプロイするエンドポイントのコンテナログを発行します。


/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

例えば、このエンドポイントのログは、次のロググループとストリームに発行されます。


EndpointName: MyInferencePipelinesEndpoint
Variant: MyInferencePipelinesVariant
InstanceId: i-0179208609ff7e488
ContainerHostname: MyContainerName1 and MyContainerName2


logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

ログストリームは、同じソースを共有する一連のログイベントです。のログの各ソースは、個別のログストリーム CloudWatch を構成します。ロググループは、保持、モニタリング、アクセス制御について同じ設定を共有するログストリームのグループです。

ロググループとストリームを表示するには

で CloudWatch コンソールを開きますhttps://console.aws.amazon.com/cloudwatch/。
ナビゲーションページで [Logs] (ログ) を選択します。
[ロググループ] で、MyInferencePipelinesEndpoint をフィルタリングします。
ログストリームを表示するには、 CloudWatch ロググループページでを選択しMyInferencePipelinesEndpoint、ロググループ を検索します。

が SageMaker 発行するログのリストについては、「」を参照してください推論パイプラインのログとメトリクス。

エラーメッセージを使用して推論パイプラインをトラブルシューティングする

推論パイプラインのエラーメッセージは、失敗したコンテナを示します。

SageMaker がエンドポイントを呼び出す間にエラーが発生した場合、サービスは失敗したコンテナを示す ModelError (エラーコード 424) を返します。リクエストペイロード (前のコンテナからのレスポンス) が 5 MB の制限を超える場合、は次のような詳細なエラーメッセージ SageMaker を提供します。

MyContainerName1 からステータスコード 200 のレスポンスを受信しました。ただし、 MyContainerName1 から MyContainerName2 までのリクエストペイロードは 6000000 バイトで、上限の 5 MB を超えています。

エンドポイントの作成中にコンテナ SageMaker が ping ヘルスチェックに失敗すると、が返され、最後のヘルスチェックで ping チェックに失敗したすべてのコンテナClientErrorが示されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ログおよびメトリクス

エンドポイントとリソースを削除する