As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Logs para algoritmos integrados
Os algoritmos de SageMaker IA da Amazon produzem CloudWatch registros da Amazon, que fornecem informações detalhadas sobre o processo de treinamento. Para ver os registros, no console AWS de gerenciamento, escolha CloudWatchRegistros e, em seguida, escolha the /aws/sagemaker/TrainingJobs Grupo de registros. Cada trabalho de treinamento tem um fluxo de logs por nó no qual foi treinado. O nome do fluxo de logs começa com o valor especificado no parâmetro TrainingJobName
quando o trabalho foi criado.
nota
Se um trabalho falhar e os registros não aparecerem CloudWatch, é provável que tenha ocorrido um erro antes do início do treinamento. Especificar a imagem de treinamento ou o local do S3 incorretos pode ser um dos motivos.
O conteúdo dos logs variam de algoritmo para algoritmo. No entanto, você pode normalmente encontrar as seguintes informações:
-
Confirmação dos argumentos fornecidos no início do log
-
Erros que ocorreram durante o treinamento
-
Medição da precisão de um algoritmo ou do desempenho numérico
-
Cronologia do algoritmo e todos os principais estágios presentes nele
Erros comuns
Se um trabalho de treinamento apresentar falha, alguns detalhes sobre o problema serão fornecidos pelo valor de retorno FailureReason
na descrição do trabalho de treinamento, da seguinte forma:
sage = boto3.client('sagemaker')
sage.describe_training_job(TrainingJobName=job_name)['FailureReason']
Outros são relatados somente nos CloudWatch registros. Estes são alguns dos erros comuns:
-
Especificação incorreta de um hiperparâmetro ou especificação de um hiperparâmetro inválido para o algoritmo.
Do CloudWatch registro
[10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
-
Especificação de um valor inválido para um hiperparâmetro.
FailureReason
AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\
FailureReason
[10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
-
Formato impreciso do arquivo protobuf.
Do CloudWatch registro
[10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784