SageMaker Guida alla risoluzione dei problemi di Python SDK - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Guida alla risoluzione dei problemi di Python SDK

Puoi usare SageMaker Python SDK per interagire con Amazon SageMaker all'interno dei tuoi script Python o dei notebook Jupyter. Nonostante SDK offra un flusso di lavoro semplificato, potresti riscontrare varie eccezioni o errori. Questa guida alla risoluzione dei problemi ha lo scopo di aiutarti a comprendere e risolvere i problemi più comuni che potrebbero sorgere quando lavori con SageMaker PythonSDK. Copre scenari relativi alla creazione di lavori di formazione, processi di elaborazione ed endpoint, nonché pratiche generali di gestione delle eccezioni. Seguendo le indicazioni fornite nelle sezioni seguenti, è possibile diagnosticare e risolvere in modo efficace i problemi più comuni.

SageMaker Python SDK funge da wrapper per le operazioni di basso livello. SageMaker API Il IAM ruolo che stai utilizzando per accedere SDK deve essere in grado di accedere alle operazioni sottostanti. Aggiungere la SageMaker Full Access Policy al tuo IAM ruolo è il modo più semplice per assicurarti di avere i permessi per usare Python. SageMaker SDK Per ulteriori informazioni sulla politica di accesso SageMaker completo, consulta Amazon SageMaker Full Access.

Sebbene meno conveniente, fornire autorizzazioni più granulari è un approccio sicuro all'utilizzo di. SDK Ciascuna delle seguenti sezioni contiene informazioni sulle autorizzazioni richieste.

Crea un Job di formazione

Importante

Se non stai aggiungendo la politica di accesso SageMaker completo al tuo IAM ruolo, deve disporre delle autorizzazioni per chiamare le DescribeTrainingJoboperazioni CreateTrainingJoband.

Richiede inoltre le autorizzazioni per:

  • Accedere ai dati di input/output in S3

  • Esegui EC2 istanze Amazon

  • Parametri dei log CloudWatch

Se il tuo processo di SageMaker formazione deve accedere alle risorse in un Amazon Virtual Private Cloud (AmazonVPC), assicurati di configurare le VPC impostazioni e i gruppi di sicurezza necessari quando crei il processo di elaborazione.

Quando crei un lavoro di formazione, potresti imbatterti in botocore.exceptions.ClientError o ValueError eccezioni.

ValueError

ValueErrorle eccezioni si verificano quando c'è un problema con i valori o i parametri che state passando a una funzione. Utilizza l'elenco seguente per visualizzare esempi di ValueError eccezioni e come correggerle.

  • ValueError: either image_uri or algorithm_arn is required. None was provided:

    • Se utilizzi la AlgorithmEstimator funzione, fornisci ilalgorithm_arn.

    • Se stai utilizzando la Estimator funzione, fornisci ilestimator_arn.

  • ValueError: Unknown input channel: train is not supported by: scikit-decision-trees-15423055-57b73412d2e93e9239e4e16f83298b8f

    Questo errore viene visualizzato quando si fornisce un canale di input non valido. Un canale di input è una fonte di dati o un parametro previsto dal modello.

    Nella Tipi di algoritmi pagina, è possibile accedere al modello per trovare informazioni sui canali di input del modello.

    È inoltre possibile trovare informazioni sui canali di ingresso nella sezione Utilizzo della Marketplace AWS pagina dell'algoritmo.

    Utilizzate la procedura seguente per ottenere informazioni sui canali di input di un algoritmo.

    Per ottenere informazioni sui canali di input di un algoritmo
    1. Vai alla SageMaker console.

    2. Nel pannello di navigazione a sinistra, scegli Addestramento.

    3. Seleziona Algoritmi.

    4. Scegli Trova algoritmo.

    5. Trova il tuo algoritmo nell'elenco risultante.

    6. Seleziona la scheda Utilizzo.

    7. Vai all'intestazione delle specifiche del canale.

botocore.exceptions.ClientError

botocore.exceptions.ClientErrorle eccezioni si verificano quando un AWS servizio sottostante genera un'eccezione. Ciò potrebbe essere dovuto a vari motivi, ad esempio parametri errati, problemi di autorizzazioni o vincoli di risorse. Utilizza l'elenco seguente per informazioni contestuali sulle botocore.exceptions.ClientError eccezioni e informazioni su come correggerle.

  • ResourceLimitExceeded— Il tuo AWS account non ha accesso alle EC2 istanze Amazon necessarie per eseguire il processo di formazione. Per ottenere l'accesso, richiedi un aumento della quota. Per informazioni sugli aumenti delle quote, vedere Service Quotas. Utilizza il seguente elenco per informazioni sulle botocore.exceptions.ClientError eccezioni.

  • ValidationException— Le eccezioni di convalida si verificano quando hai utilizzato il tipo di EC2 istanza Amazon sbagliato per il processo di formazione. Possono comparire anche quando il IAM ruolo che stai utilizzando non dispone delle autorizzazioni per il lavoro di formazione.

Aggiornare un Training Job

Importante

Se non stai aggiungendo la SageMaker Managed Policy al tuo IAM ruolo, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:

  • s3:GetObject— Fornisce le autorizzazioni per leggere gli artefatti del modello dai bucket Amazon S3

  • s3:PutObject— Se applicabile, fornisce le autorizzazioni per scrivere aggiornamenti agli artefatti del modello

  • iam:GetRole— Fornisce le autorizzazioni per ottenere informazioni sul IAM ruolo necessario per eseguire il processo di formazione

  • sagemaker:UpdateTrainingJob— Fornisce le autorizzazioni per modificare i lavori di formazione utilizzando l'UpdateTrainingJoboperazione.

  • logs:PutLogEvents— Fornisce le autorizzazioni per scrivere log nei log di Amazon durante il CloudWatch processo di aggiornamento.

Quando aggiorni un processo di formazione, potresti imbatterti in un o unbotocore.exceptions.ParamValidationError. botocore.exceptions.ClientError

botocore.exceptions.ClientError

ClientErrorHa il seguente messaggio:

botocore.exceptions.ClientError: An error occurred (ValidationException) when calling the UpdateTrainingJob operation: Invalid UpdateTrainingJobRequest, the request cannot be empty

Se riscontri questo errore, devi includere uno dei seguenti parametri insieme al nome del processo di formazione:

  • profiler_rule_configs(elenco) — Un elenco di configurazioni delle regole del profiler. Per impostazione predefinita, non esistono configurazioni delle regole del profiler.

  • profiler_config(dict) — La configurazione per SageMaker Profiler raccoglie le metriche e le invia. Per impostazione predefinita, non esiste una configurazione del profiler.

  • resource_config(dict) — La configurazione per le risorse del lavoro di formazione. È possibile aggiornare il periodo di mantenimento se lo stato della piscina calda è. Available Nessun altro campo può essere aggiornato.

  • remote_debug_config(dict) — Configurazione perRemoteDebug. Il dizionario può contenere EnableRemoteDebug (bool).

botocore.exceptions.ParamValidationError

botocore.exceptions.ParamValidationErrorPresenta il seguente errore:

botocore.exceptions.ParamValidationError: Parameter validation failed: Invalid type for parameter ProfilerRuleConfigurations, value: {'DisableProfiler': False}, type: <class 'dict'>, valid types: <class 'list'>, <class 'tuple'>

Questa eccezione può verificarsi se il parametro non viene fornito nel formato previsto dalla update_training_job funzione. Ad esempio, si aspetta che il profiler_rule_configs parametro sia un elenco. Se invece il parametro viene passato come dizionario, genera l'errore.

Creare un Job di elaborazione

Importante

Se non stai aggiungendo la SageMaker Managed Policy al tuo IAM ruolo, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:

  • sagemaker:CreateProcessingJob— Fornisce le autorizzazioni per creare un processo di elaborazione

  • sagemaker:DescribeProcessingJob— Fornisce le autorizzazioni per ottenere informazioni su un processo di elaborazione

  • s3:GetObject— Fornisce le autorizzazioni per leggere gli artefatti del modello dai bucket Amazon S3

  • s3:PutObject— Se applicabile, fornisce le autorizzazioni per scrivere aggiornamenti agli artefatti del modello

  • logs:PutLogEvents— Fornisce le autorizzazioni per scrivere i log nei log di Amazon durante il CloudWatch processo di aggiornamento.

Se il tuo processo di elaborazione deve accedere a risorse all'interno di un Amazon Virtual Private Cloud, devi specificarlo security_group_ids e subnets all'interno dello stimatore che crei. Per un esempio di come accedere alle risorse all'interno di AmazonVPC, consulta Secure Training and Inference with VPC.

Quando crei un processo di elaborazione, potresti imbatterti in un ValueErrorUnexpectedStatusException, un o unbotocore.exceptions.ClientError.

ValueError

Di seguito è riportato un esempio diValueError:

ValueError: code preprocess.py wasn't found. Please make sure that the file exists.

Il percorso che hai specificato non era corretto. È possibile specificare un percorso relativo o assoluto per il file di script. Per ulteriori informazioni sulla specificazione dei percorsi dei file, consulta sagemaker.processing. RunArgs.

UnexpectedStatusException

Di seguito è riportato un esempio diUnexpectedStatusException:

UnexpectedStatusException: Error for Processing job sagemaker-scikit-learn-2024-07-02-14-08-55-993: Failed. Reason: AlgorithmError: , exit code: 1

Il traceback che accompagna l'eccezione può aiutarti a identificare la causa principale:

Traceback (most recent call last): File "/opt/ml/processing/input/code/preprocessing.py", line 51, in <module> df = pd.read_csv(input_data_path) . . . File "pandas/_libs/parsers.pyx", line 689, in pandas._libs.parsers.TextReader._setup_parser_source FileNotFoundError: [Errno 2] File b'/opt/ml/processing/input/census-income.csv' does not exist: b'/opt/ml/processing/input/census-income.csv'

L'errore "FileNotFoundError: [Errno 2] File b'/opt/ml/processing/input/census-income.csv' does not exist" indica che il file di input non census-income.csv è stato trovato nel percorso specificato. /opt/ml/processing/input/ Verificate che i dati di input siano forniti correttamente e che lo script di preelaborazione stia copiando i dati nel percorso previsto.

botocore.exceptions.ClientError

Di seguito è riportato un esempio di: botocore.exceptions.ClientError

botocore.exceptions.ClientError: An error occurred (ValidationException) when calling the CreateProcessingJob operation: RoleArn: Cross-account pass role is not allowed.

L'"Cross-account pass role is not allowed in create processing job"errore si verifica quando si tenta di creare un processo di SageMaker elaborazione utilizzando un IAM ruolo di un AWS account diverso. Questa funzionalità di sicurezza garantisce la gestione dei ruoli e delle autorizzazioni all'interno di ciascun account. Per risolvere il problema, procedi come segue:

  1. Verifica che il IAM ruolo sia nello stesso account del processo di elaborazione. I ruoli tra account richiedono un'indennità esplicita

  2. Se utilizzi un ruolo di un altro account, aggiorna la sua politica di fiducia per consentire all'account che ha creato il processo di elaborazione di assumere il ruolo.

  3. Assicurati che il ruolo disponga delle autorizzazioni necessarie per l'elaborazione dei lavori, come sagemaker:CreateProcessingJob oiam:PassRole.

Creazione di un endpoint

Importante

Se non stai aggiungendo la Politica SageMaker gestita al tuo IAM ruolo, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:

  • sagemaker:CreateModel— Fornisce le autorizzazioni per creare il modello che stai distribuendo sull'endpoint

  • sagemaker:CreateEndpointConfig— Fornisce le autorizzazioni per creare una configurazione dell'endpoint che definisce il comportamento dell'endpoint, ad esempio il tipo e il numero di istanze

  • sagemaker:CreateEndpoint— Fornisce le autorizzazioni per creare la configurazione dell'endpoint utilizzando l'endpoint specificato

Inoltre, sono necessarie le autorizzazioni per descrivere ed elencare i modelli, gli endpoint e le configurazioni degli endpoint.

Quando crei un endpoint, potresti imbatterti in un o un. UnexpectedStatusException botocore.exceptions.ClientError

Di seguito è riportato un esempio di: UnexpectedStatusException

UnexpectedStatusException: Error hosting endpoint gpt2-large-2024-07-03-15-28-20-448: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint.. Try changing the instance type or reference the troubleshooting page https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-troubleshooting.html

Il messaggio di errore ti dice di controllare i CloudWatch log di Amazon. Usa la seguente procedura per controllare i log.

Per controllare i registri CloudWatch
  1. Accedi alla SageMaker console Amazon.

  2. Nella barra di navigazione a sinistra, scegli Endpoints.

  3. Seleziona l'endpoint che ha avuto esito negativo.

  4. Nella pagina dei dettagli dell'endpoint, scegli Visualizza accessi. CloudWatch

Dopo aver trovato i log, cerca il problema specifico. Di seguito è riportato un esempio di CloudWatch registro:

NotImplementedError: gptq quantization is not supported for AutoModel, you can try to quantize it with text-generation-server quantize ORIGINAL_MODEL_ID NEW_MODEL_ID

Per informazioni sulla risoluzione dibotocore.exceptions.ClientError, vedereLinee guida sulla gestione delle eccezioni.

Aggiornare un endpoint

Importante

Se non stai aggiungendo la SageMaker Managed Policy al tuo IAM ruolo, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:

  • sagemaker:UpdateEndpoint— Fornisce le autorizzazioni per aggiornare un endpoint esistente, ad esempio per modificare il tipo o il conteggio delle istanze dell'endpoint

  • sagemaker:UpdateEndpointWeightsAndCapacities— Fornisce le autorizzazioni per creare una configurazione dell'endpoint che definisce il comportamento dell'endpoint, ad esempio il tipo e il numero di istanze

  • sagemaker:DescribeEndpoint— Fornisce le autorizzazioni per descrivere la configurazione corrente dell'endpoint, che è spesso richiesta prima dell'aggiornamento

Inoltre, potrebbero essere necessarie le autorizzazioni per descrivere ed elencare gli endpoint e le configurazioni degli endpoint.

Puoi imbatterti in un file come ValueError il seguente:

ValueError: Endpoint with name 'abc' does not exist; please use an existing endpoint name

L'errore indica che il nome dell'endpoint specificato non corrisponde a nessun endpoint esistente nel tuo AWS account. Utilizza la seguente procedura per risolvere l'errore:

Per risolvere un errore di valore
  1. Usa il codice seguente per elencare tutti i tuoi endpoint:

    import sagemaker sagemaker_session = sagemaker.Session() # List all endpoints endpoints = sagemaker_session.sagemaker_client.list_endpoints() print(endpoints)
  2. Verifica che l'endpoint che hai specificato per la update_endpoint funzione sia nell'elenco.

  3. Assicurati di operare nella AWS regione corretta. SageMaker gli endpoint sono specifici della regione.

  4. Assicurati che il IAM ruolo che stai utilizzando disponga delle autorizzazioni per elencare, descrivere o aggiornare gli endpoint.

Linee guida sulla gestione delle eccezioni

Se non riesci a trovare informazioni che ti aiutino a risolvere il tuo problema specifico, i seguenti esempi di codice possono darti ispirazione su come gestire le eccezioni.

Di seguito è riportato un esempio generico che è possibile utilizzare per catturare la maggior parte delle eccezioni.

import sagemaker from botocore.exceptions import ParamValidationError, ClientError try: sagemaker.some_api_call(SomeParam='some_param') except ClientError as error: # Put your error handling logic here raise error except ParamValidationError as error: raise ValueError('The parameters you provided are incorrect: {}'.format(error)) except ValueError as error: # Catch generic ValueError exceptions

Esistono due categorie principali di errori:

  • Errori specifici del SageMaker Python SDK

  • Errori specifici del servizio sottostante AWS

Gli errori specifici del AWS servizio sottostante sono sempre botocore.exceptions.ClientError eccezioni. botocore.exceptions.ClientErrorHa un Error oggetto e un ResponseMetadata oggetto. Quanto segue mostra il modello di un errore del client:

{ 'Error': { 'Code': 'SomeServiceException', 'Message': 'Details/context around the exception or error' }, 'ResponseMetadata': { 'RequestId': '1234567890ABCDEF', 'HostId': 'host ID data will appear here as a hash', 'HTTPStatusCode': 400, 'HTTPHeaders': {'header metadata key/values will appear here'}, 'RetryAttempts': 0 } }

Di seguito è riportato un esempio della gestione specifica degli errori che è possibile eseguire conbotocore.exceptions.ClientError:

try: sagemaker.some_api_call(SomeParam='some_param') except botocore.exceptions.ClientError as err: if err.response['Error']['Code'] == 'InternalError': # Generic error # We grab the message, request ID, and HTTP code to give to customer support print('Error Message: {}'.format(err.response['Error']['Message'])) print('Request ID: {}'.format(err.response['ResponseMetadata']['RequestId'])) print('Http code: {}'.format(err.response['ResponseMetadata']['HTTPStatusCode'])) raise err else if err.response['Error']['Code'] == 'ValidationException': raise ValueError(err.response['Error']['Message'])

Per ulteriori informazioni su come gestire le ClientError eccezioni, consulta Analisi delle risposte agli errori e rilevamento delle eccezioni da. Servizi AWS