Résolution des problèmes de pipelines d'inférence - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes de pipelines d'inférence

Pour résoudre les problèmes liés au pipeline d'inférence, utilisez les CloudWatch journaux et les messages d'erreur. Si vous utilisez des images Docker personnalisées dans un pipeline qui inclut des algorithmes SageMaker intégrés à Amazon, vous pouvez également rencontrer des problèmes d'autorisations. Pour accorder les autorisations requises, créez une politique Amazon Elastic Container Registry (AmazonECR).

Résoudre les problèmes liés aux ECR autorisations Amazon pour les pipelines d'inférence

Lorsque vous utilisez des images Docker personnalisées dans un pipeline qui inclut des algorithmes SageMaker intégrés, vous avez besoin d'une ECRpolitique Amazon. La politique permet à votre ECR référentiel Amazon d'autoriser l'extraction SageMaker de l'image. La stratégie doit ajouter les autorisations suivantes :

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

Utiliser CloudWatch les journaux pour résoudre les problèmes liés aux pipelines d' SageMaker inférence

SageMaker publie les journaux des conteneurs pour les points de terminaison qui déploient un pipeline d'inférence vers Amazon CloudWatch sur le chemin suivant pour chaque conteneur.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Par exemple, les journaux pour ce point de terminaison sont publiés dans les flux et les groupes de journaux suivants :

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Un flux de journaux est une séquence d'événements de journaux qui partagent la même source. Chaque source distincte de connexions CloudWatch constitue un flux de journaux distinct. Un groupe de journaux est un groupe de flux de journaux qui partagent les mêmes paramètres de conservation, de surveillance et de contrôle d'accès.

Pour voir les flux et les groupes de journaux
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Dans la page de navigation, choisissez Logs (Journaux).

  3. Dans Groupes de journaux, filtrez sur MyInferencePipelinesEndpoint :

    Les groupes de CloudWatch journaux ont été filtrés en fonction du point de terminaison du pipeline d'inférence.
  4. Pour voir les flux de journaux, sur la page Groupes de CloudWatch journaux, choisissezMyInferencePipelinesEndpoint, puis Rechercher un groupe de journaux.

    Le flux de CloudWatch log du pipeline d'inférence.

Pour obtenir la liste des journaux SageMaker publiés, consultezJournaux et métriques des pipelines d'inférence.

Utilisation des messages d'erreur pour résoudre les problèmes de pipelines d'inférence.

Les messages d'erreur des pipelines d'inférence indiquent les conteneurs qui ont échoué.

Si une erreur se produit lors SageMaker de l'appel d'un point de terminaison, le service renvoie un ModelError (code d'erreur 424), qui indique quel conteneur a échoué. Si la charge utile de la demande (la réponse du conteneur précédent) dépasse la limite de 5 Mo, SageMaker fournit un message d'erreur détaillé, tel que :

Réponse reçue de la part de MyContainerName 1 avec le code d'état 200. Cependant, la charge utile de la demande comprise entre MyContainerName 1 et MyContainerName 2 est de 600 000 octets, ce qui dépasse la limite maximale de 5 Mo.

Si un conteneur échoue à la vérification de l'état du ping lors SageMaker de la création d'un point de terminaison, il renvoie un ClientError et indique tous les conteneurs qui ont échoué à la vérification du ping lors du dernier contrôle d'état.