Risoluzione dei problemi delle pipeline di inferenza - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi delle pipeline di inferenza

Per risolvere i problemi relativi alla pipeline di inferenza, utilizzate CloudWatch i log e i messaggi di errore. Se utilizzi immagini Docker personalizzate in una pipeline che include algoritmi SageMaker integrati in Amazon, potresti riscontrare anche problemi di autorizzazione. Per concedere le autorizzazioni richieste, crea una policy Amazon Elastic Container Registry (AmazonECR).

Risolvi i problemi relativi alle ECR autorizzazioni Amazon per Inference Pipelines

Quando utilizzi immagini Docker personalizzate in una pipeline che include algoritmi SageMaker integrati, hai bisogno di una policy Amazon. ECR La policy consente al tuo ECR repository Amazon di concedere l'autorizzazione SageMaker per estrarre l'immagine. La policy deve aggiungere le seguenti autorizzazioni:

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

Usa i CloudWatch log per risolvere i problemi delle pipeline di inferenza SageMaker

SageMaker pubblica i log dei container per gli endpoint che distribuiscono una pipeline di inferenza su CloudWatch Amazon nel seguente percorso per ogni contenitore.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Ad esempio, i log per questo endpoint vengono pubblicati nei seguenti gruppi di log e flussi:

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Un flusso di log è una sequenza di eventi di log che condividono la stessa origine. Ogni fonte di accesso separata costituisce un flusso di log separato CloudWatch . Un gruppo di log è un gruppo di flussi di log che condividono le stesse impostazioni di conservazione, monitoraggio e controllo degli accessi.

Per vedere i gruppi di log e i flussi
  1. Apri la CloudWatch console all'indirizzo https://console.aws.amazon.com/cloudwatch/.

  2. Nella pagina di navigazione scegli Log.

  3. In Gruppi di log, applicare il filtro MyInferencePipelinesEndpoint:

    I gruppi di CloudWatch log filtrati per l'endpoint della pipeline di inferenza.
  4. Per visualizzare i flussi di log, nella pagina CloudWatch Log Groups, sceglieteMyInferencePipelinesEndpoint, quindi Search Log Group.

    Il flusso di CloudWatch log per la pipeline di inferenza.

Per un elenco dei log che vengono SageMaker pubblicati, vedere. Log e parametri della pipeline di inferenza

Utilizzo dei messaggi di errore per la risoluzione dei problemi relativi alla pipeline di inferenza

I messaggi di errore della pipeline di inferenza indicano quali container non sono riusciti.

Se si verifica un errore durante SageMaker l'invocazione di un endpoint, il servizio restituisce un ModelError (codice di errore 424), che indica quale contenitore ha avuto esito negativo. Se il payload della richiesta (la risposta del contenitore precedente) supera il limite di 5 MB, SageMaker fornisce un messaggio di errore dettagliato, ad esempio:

Risposta ricevuta da MyContainerName 1 con codice di stato 200. Tuttavia, il payload della richiesta da MyContainerName 1 a MyContainerName 2 è di 6000000 byte, che ha superato il limite massimo di 5 MB.

Se un contenitore non supera il controllo dello stato del ping durante SageMaker la creazione di un endpoint, restituisce a ClientError e indica tutti i contenitori che non hanno superato il controllo ping nell'ultimo controllo di integrità.