Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Logs para algoritmos integrados

Modo de foco
Logs para algoritmos integrados - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Os algoritmos de SageMaker IA da Amazon produzem CloudWatch registros da Amazon, que fornecem informações detalhadas sobre o processo de treinamento. Para ver os registros, no console AWS de gerenciamento, escolha CloudWatchRegistros e, em seguida, escolha the /aws/sagemaker/TrainingJobs Grupo de registros. Cada trabalho de treinamento tem um fluxo de logs por nó no qual foi treinado. O nome do fluxo de logs começa com o valor especificado no parâmetro TrainingJobName quando o trabalho foi criado.

nota

Se um trabalho falhar e os registros não aparecerem CloudWatch, é provável que tenha ocorrido um erro antes do início do treinamento. Especificar a imagem de treinamento ou o local do S3 incorretos pode ser um dos motivos.

O conteúdo dos logs variam de algoritmo para algoritmo. No entanto, você pode normalmente encontrar as seguintes informações:

  • Confirmação dos argumentos fornecidos no início do log

  • Erros que ocorreram durante o treinamento

  • Medição da precisão de um algoritmo ou do desempenho numérico

  • Cronologia do algoritmo e todos os principais estágios presentes nele

Erros comuns

Se um trabalho de treinamento apresentar falha, alguns detalhes sobre o problema serão fornecidos pelo valor de retorno FailureReason na descrição do trabalho de treinamento, da seguinte forma:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Outros são relatados somente nos CloudWatch registros. Estes são alguns dos erros comuns:

  1. Especificação incorreta de um hiperparâmetro ou especificação de um hiperparâmetro inválido para o algoritmo.

    Do CloudWatch registro

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Especificação de um valor inválido para um hiperparâmetro.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Formato impreciso do arquivo protobuf.

    Do CloudWatch registro

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784
PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.