Logs para algoritmos integrados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Logs para algoritmos integrados

SageMaker Os algoritmos da Amazon produzem CloudWatch registros da Amazon, que fornecem informações detalhadas sobre o processo de treinamento. Para ver os registros, no console de AWS gerenciamento, escolha Logs e, em seguida CloudWatch, escolha o grupo de logs TrainingJobs /aws/sagemaker/. Cada trabalho de treinamento tem um fluxo de logs por nó no qual foi treinado. O nome do fluxo de logs começa com o valor especificado no parâmetro TrainingJobName quando o trabalho foi criado.

nota

Se um trabalho falhar e os registros não aparecerem CloudWatch, é provável que tenha ocorrido um erro antes do início do treinamento. Especificar a imagem de treinamento ou o local do S3 incorretos pode ser um dos motivos.

O conteúdo dos logs variam de algoritmo para algoritmo. No entanto, você pode normalmente encontrar as seguintes informações:

  • Confirmação dos argumentos fornecidos no início do log

  • Erros que ocorreram durante o treinamento

  • Medição da precisão de um algoritmo ou do desempenho numérico

  • Cronologia do algoritmo e todos os principais estágios presentes nele

Erros comuns

Se um trabalho de treinamento apresentar falha, alguns detalhes sobre o problema serão fornecidos pelo valor de retorno FailureReason na descrição do trabalho de treinamento, da seguinte forma:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Outros são relatados somente nos CloudWatch registros. Estes são alguns dos erros comuns:

  1. Especificação incorreta de um hiperparâmetro ou especificação de um hiperparâmetro inválido para o algoritmo.

    Do CloudWatch registro

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Especificação de um valor inválido para um hiperparâmetro.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Formato impreciso do arquivo protobuf.

    Do CloudWatch registro

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784