Solución de problemas de canalizaciones de inferencia - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas de canalizaciones de inferencia

Para solucionar los problemas de canalización de inferencia, utilice los registros y mensajes de error de CloudWatch . Si utilizas imágenes de Docker personalizadas en una canalización que incluye los algoritmos integrados de Amazon SageMaker AI, es posible que también tengas problemas con los permisos. Para conceder los permisos necesarios, cree una política de Amazon Elastic Container Registry (AmazonECR).

Solucionar problemas de ECR permisos de Amazon para canalizaciones de inferencia

Cuando utilizas imágenes de Docker personalizadas en una canalización que incluye algoritmos integrados de SageMaker IA, necesitas una ECRpolítica de Amazon. La política permite a tu ECR repositorio de Amazon conceder permiso para que SageMaker AI extraiga la imagen. La política debe agregar los permisos siguientes:

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

Utilice CloudWatch los registros para solucionar problemas de los canales de inferencia de SageMaker IA

SageMaker La IA publica los registros de los contenedores para los puntos finales que despliegan una canalización de inferencias hacia Amazon CloudWatch en la siguiente ruta para cada contenedor.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Por ejemplo, los registros para este punto de conexión se publican en los siguientes grupos de registros y secuencias:

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros forma un CloudWatch flujo de registros independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.

Para ver los grupos de registro y secuencias
  1. Abra la CloudWatch consola en https://console.aws.amazon.com/cloudwatch/.

  2. En el panel de navegación, elija Registros.

  3. En Grupos de registro, filtre en MyInferencePipelinesEndpoint:

    Los grupos de CloudWatch registros filtrados para el punto final de la canalización de inferencia.
  4. Para ver los flujos de registros, en la página Grupos de CloudWatch registros, elija yMyInferencePipelinesEndpoint, a continuación, Buscar grupo de registros.

    El flujo de CloudWatch registro de la canalización de inferencias.

Para obtener una lista de los registros que publica SageMaker AI, consulteRegistros y métricas de canalización de inferencias.

Utilizar mensajes de error para solucionar problemas de canalizaciones de inferencia

Los mensajes de error de canalización de inferencia indican que los contenedores presentan errores.

Si se produce un error mientras la SageMaker IA invoca un punto final, el servicio devuelve un ModelError (código de error 424), que indica qué contenedor ha fallado. Si la carga útil de la solicitud (la respuesta del contenedor anterior) supera el límite de 5 MB, SageMaker AI proporciona un mensaje de error detallado, como:

Recibió una respuesta de MyContainerName 1 con el código de estado 200. Sin embargo, la carga útil de la solicitud de MyContainerName 1 a MyContainerName 2 es de 6000000 bytes, lo que ha superado el límite máximo de 5 MB.

Si un contenedor no supera la comprobación de estado del ping mientras la SageMaker IA está creando un punto final, devuelve un valor ClientError e indica todos los contenedores que no pasaron la comprobación de ping en la última comprobación de estado.