Registros para algoritmos integrados - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Registros para algoritmos integrados

SageMaker Los algoritmos de Amazon producen CloudWatch registros de Amazon, que proporcionan información detallada sobre el proceso de formación. Para ver los registros, en la consola de AWS administración, elija Logs y CloudWatch, a continuación, elija el grupo de registros TrainingJobs /aws/sagemaker/. Todos los trabajos de entrenamiento disponen de un flujo de registro por nodo en el que se realiza el entrenamiento. El nombre del flujo de registro comienza con el valor especificado en el parámetro TrainingJobName cuando se creó el trabajo.

nota

Si se produce un error en un trabajo y los registros no aparecen CloudWatch, es probable que se haya producido un error antes del inicio del entrenamiento. Entre los motivos se encuentran la especificación de la ubicación de S3 o de la imagen de capacitación incorrectas.

El contenido de los registros varía según los algoritmos. Sin embargo, puede buscar normalmente la siguiente información:

  • Confirmación de los argumentos proporcionados al principio del registro

  • Errores que se produjeron durante la capacitación

  • Medición del rendimiento numérico o de la precisión de los algoritmos

  • Tiempos del algoritmo y etapas principales dentro del algoritmo

Errores comunes

Si se produce un error en el trabajo de capacitación, se proporcionan algunos detalles sobre el error mediante el valor de retorno FailureReason en la descripción del trabajo de capacitación, de la siguiente manera:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Otros solo aparecen en los CloudWatch registros. Entre los errores comunes se encuentran los siguientes:

  1. Error de especificación de un hiperparámetro o especificación de un hiperparámetro que no es válido para el algoritmo.

    Del CloudWatch registro

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Especificación de un valor no válido para un hiperparámetro.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Formato de archivo protobuf no apropiado.

    Del CloudWatch registro

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784