Solucionar problemas em pipelines de inferência

Para solucionar problemas do pipeline de inferência, use CloudWatch registros e mensagens de erro. Se você estiver usando imagens personalizadas do Docker em um pipeline que inclui algoritmos SageMaker integrados da Amazon, você também poderá encontrar problemas de permissões. Para conceder as permissões necessárias, crie uma política do Amazon Elastic Container Registry (AmazonECR).

Tópicos

Solucionar problemas de ECR permissões da Amazon para pipelines de inferência
Use CloudWatch registros para solucionar problemas de pipelines de SageMaker inferência
Use mensagens de erro para solucionar problemas com pipelines de inferência.

Solucionar problemas de ECR permissões da Amazon para pipelines de inferência

Quando você usa imagens personalizadas do Docker em um pipeline que inclui algoritmos SageMaker integrados, você precisa de uma ECRpolítica da Amazon. A política permite que seu ECR repositório da Amazon conceda permissão para SageMaker extrair a imagem. A política deve adicionar as seguintes permissões:


{
    "Version": "2008-10-17",
    "Statement": [
        {
            "Sid": "allowSageMakerToPull",
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": [
                "ecr:GetDownloadUrlForLayer",
                "ecr:BatchGetImage",
                "ecr:BatchCheckLayerAvailability"
            ]
        }
    ]
}

Use CloudWatch registros para solucionar problemas de pipelines de SageMaker inferência

SageMaker publica os registros do contêiner para endpoints que implantam um pipeline de inferência CloudWatch na Amazon no seguinte caminho para cada contêiner.


/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Por exemplo, os logs desse endpoint são publicados nos seguintes grupos de logs e streams:


EndpointName: MyInferencePipelinesEndpoint
Variant: MyInferencePipelinesVariant
InstanceId: i-0179208609ff7e488
ContainerHostname: MyContainerName1 and MyContainerName2


logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Stream de log é uma sequência de eventos de log que compartilham a mesma origem. Cada fonte separada de registros CloudWatch forma um fluxo de registros separado. Um grupo de logs é um grupo de fluxos de log que compartilham as mesmas configurações de retenção, monitoramento e controle de acesso.

Para ver os grupos de log e streams

Abra o CloudWatch console em https://console.aws.amazon.com/cloudwatch/.
Na página de navegação, escolha Logs.
In Log Groups (Grupos de log) filtre em MyInferencePipelinesEndpoint:
Para ver os fluxos de registros, na página Grupos de CloudWatch registros, escolha e, em seguidaMyInferencePipelinesEndpoint, Pesquisar grupo de registros.

Para obter uma lista dos registros SageMaker publicados, consulteLogs e métricas de pipeline de inferência.

Use mensagens de erro para solucionar problemas com pipelines de inferência.

As mensagens de erro do pipeline de inferência indicam quais contêineres falharam.

Se ocorrer um erro ao SageMaker invocar um endpoint, o serviço retornará um ModelError (código de erro 424), que indica qual contêiner falhou. Se a carga útil da solicitação (a resposta do contêiner anterior) exceder o limite de 5 MB, SageMaker fornecerá uma mensagem de erro detalhada, como:

Resposta recebida de MyContainerName 1 com o código de status 200. No entanto, a carga útil da solicitação de MyContainerName 1 a MyContainerName 2 é de 6000000 bytes, o que excedeu o limite máximo de 5 MB.

Se um contêiner falhar na verificação de integridade do ping ao SageMaker criar um endpoint, ele retornará a ClientError e indicará todos os contêineres que falharam na verificação de ping na última verificação de integridade.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Logs e métricas

Excluir endpoints e recursos