Logs para algoritmos integrados

Modo de foco

Logs para algoritmos integrados - SageMaker IA da Amazon

Os algoritmos de SageMaker IA da Amazon produzem CloudWatch registros da Amazon, que fornecem informações detalhadas sobre o processo de treinamento. Para ver os registros, no console AWS de gerenciamento, escolha CloudWatchRegistros e, em seguida, escolha the /aws/sagemaker/TrainingJobs Grupo de registros. Cada trabalho de treinamento tem um fluxo de logs por nó no qual foi treinado. O nome do fluxo de logs começa com o valor especificado no parâmetro TrainingJobName quando o trabalho foi criado.

nota

Se um trabalho falhar e os registros não aparecerem CloudWatch, é provável que tenha ocorrido um erro antes do início do treinamento. Especificar a imagem de treinamento ou o local do S3 incorretos pode ser um dos motivos.

O conteúdo dos logs variam de algoritmo para algoritmo. No entanto, você pode normalmente encontrar as seguintes informações:

Confirmação dos argumentos fornecidos no início do log
Erros que ocorreram durante o treinamento
Medição da precisão de um algoritmo ou do desempenho numérico
Cronologia do algoritmo e todos os principais estágios presentes nele

Erros comuns

Se um trabalho de treinamento apresentar falha, alguns detalhes sobre o problema serão fornecidos pelo valor de retorno FailureReason na descrição do trabalho de treinamento, da seguinte forma:


sage = boto3.client('sagemaker')
sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Outros são relatados somente nos CloudWatch registros. Estes são alguns dos erros comuns:

Especificação incorreta de um hiperparâmetro ou especificação de um hiperparâmetro inválido para o algoritmo.

Do CloudWatch registro
```
[10/16/2017 23:45:17 ERROR 139623806805824 train.py:48]
Additional properties are not allowed (u'mini_batch_siz' was
unexpected)
```

Especificação de um valor inválido para um hiperparâmetro.

FailureReason


AlgorithmError: u'abc' is not valid under any of the given
schemas\n\nFailed validating u'oneOf' in
schema[u'properties'][u'feature_dim']:\n    {u'oneOf':
[{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n
{u'minimum': 1, u'type': u'integer'}]}\

FailureReason


[10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc'
is not valid under any of the given schemas

Formato impreciso do arquivo protobuf.

Do CloudWatch registro


[10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot
                   copy sequence with size 785 to array axis with dimension 784

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tipos de instância sugeridos

Tabular

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Logs para algoritmos integrados

nota

Erros comuns

Nesta página

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?