ECRAutorizzazioni Log Messaggi di errore

Risoluzione dei problemi delle pipeline di inferenza

Per risolvere i problemi relativi alla pipeline di inferenza, utilizzate CloudWatch i log e i messaggi di errore. Se utilizzi immagini Docker personalizzate in una pipeline che include algoritmi SageMaker integrati in Amazon, potresti riscontrare anche problemi di autorizzazione. Per concedere le autorizzazioni richieste, crea una policy Amazon Elastic Container Registry (AmazonECR).

Argomenti

Risolvi i problemi relativi alle ECR autorizzazioni Amazon per Inference Pipelines
Usa i CloudWatch log per risolvere i problemi delle pipeline di inferenza SageMaker
Utilizzo dei messaggi di errore per la risoluzione dei problemi relativi alla pipeline di inferenza

Risolvi i problemi relativi alle ECR autorizzazioni Amazon per Inference Pipelines

Quando utilizzi immagini Docker personalizzate in una pipeline che include algoritmi SageMaker integrati, hai bisogno di una policy Amazon. ECR La policy consente al tuo ECR repository Amazon di concedere l'autorizzazione SageMaker per estrarre l'immagine. La policy deve aggiungere le seguenti autorizzazioni:


{
    "Version": "2008-10-17",
    "Statement": [
        {
            "Sid": "allowSageMakerToPull",
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": [
                "ecr:GetDownloadUrlForLayer",
                "ecr:BatchGetImage",
                "ecr:BatchCheckLayerAvailability"
            ]
        }
    ]
}

Usa i CloudWatch log per risolvere i problemi delle pipeline di inferenza SageMaker

SageMaker pubblica i log dei container per gli endpoint che distribuiscono una pipeline di inferenza su CloudWatch Amazon nel seguente percorso per ogni contenitore.


/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Ad esempio, i log per questo endpoint vengono pubblicati nei seguenti gruppi di log e flussi:


EndpointName: MyInferencePipelinesEndpoint
Variant: MyInferencePipelinesVariant
InstanceId: i-0179208609ff7e488
ContainerHostname: MyContainerName1 and MyContainerName2


logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Un flusso di log è una sequenza di eventi di log che condividono la stessa origine. Ogni fonte di accesso separata costituisce un flusso di log separato CloudWatch . Un gruppo di log è un gruppo di flussi di log che condividono le stesse impostazioni di conservazione, monitoraggio e controllo degli accessi.

Per vedere i gruppi di log e i flussi

Apri la CloudWatch console all'indirizzo https://console.aws.amazon.com/cloudwatch/.
Nella pagina di navigazione scegli Log.
In Gruppi di log, applicare il filtro MyInferencePipelinesEndpoint:
Per visualizzare i flussi di log, nella pagina CloudWatch Log Groups, sceglieteMyInferencePipelinesEndpoint, quindi Search Log Group.

Per un elenco dei log che vengono SageMaker pubblicati, vedere. Log e parametri della pipeline di inferenza

Utilizzo dei messaggi di errore per la risoluzione dei problemi relativi alla pipeline di inferenza

I messaggi di errore della pipeline di inferenza indicano quali container non sono riusciti.

Se si verifica un errore durante SageMaker l'invocazione di un endpoint, il servizio restituisce un ModelError (codice di errore 424), che indica quale contenitore ha avuto esito negativo. Se il payload della richiesta (la risposta del contenitore precedente) supera il limite di 5 MB, SageMaker fornisce un messaggio di errore dettagliato, ad esempio:

Risposta ricevuta da MyContainerName 1 con codice di stato 200. Tuttavia, il payload della richiesta da MyContainerName 1 a MyContainerName 2 è di 6000000 byte, che ha superato il limite massimo di 5 MB.

Se un contenitore non supera il controllo dello stato del ping durante SageMaker la creazione di un endpoint, restituisce a ClientError e indica tutti i contenitori che non hanno superato il controllo ping nell'ultimo controllo di integrità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Log e parametri

Elimina endpoint e risorse