Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Log per gli algoritmi integrati
Gli algoritmi di SageMaker intelligenza artificiale di Amazon producono CloudWatch log di Amazon, che forniscono informazioni dettagliate sul processo di formazione. Per visualizzare i log, nella console di AWS gestione, scegli, scegli Logs CloudWatch, quindi scegli il gruppo di log. the /aws/sagemaker/TrainingJobs Ogni processo di addestramento ha un flusso di log per ogni nodo su cui è stato addestrato. Il nome del flusso di log inizia con il valore specificato nel parametro TrainingJobName
al momento della creazione del processo.
Nota
Se un processo fallisce e i log non vengono visualizzati CloudWatch, è probabile che si sia verificato un errore prima dell'inizio dell'allenamento. I motivi includono la specificazione dell'immagine di addestramento o la posizione S3 sbagliata.
I contenuti dei log variano in base all'algoritmo. Tuttavia, in genere puoi trovare le informazioni riportate di seguito:
-
La conferma degli argomenti forniti all'inizio del log
-
Errori durante l'addestramento
-
Misurazione dell'accuratezza di un algoritmo e prestazione numerica
-
Tempistiche dell'algoritmo e le sue principali fasi
Errori comuni
Se un processo di addestramento ha esito negativo, alcune informazioni sul fallimento vengono fornite dal valore restituito FailureReason
nella descrizione del processo di addestramento, come segue:
sage = boto3.client('sagemaker')
sage.describe_training_job(TrainingJobName=job_name)['FailureReason']
Gli altri sono riportati solo nei CloudWatch log. Gli errori più comuni sono i seguenti:
-
La specificazione sbagliata di un iperparametro o la specificazione di un iperparametro non valido per l'algoritmo.
Dal registro CloudWatch
[10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
-
Specificazione di un valore non valido per un iperparametro.
FailureReason
AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\
FailureReason
[10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
-
Formato file protobuf inaccurato.
Dal CloudWatch registro
[10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784