Journaux pour les algorithmes intégrés - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Journaux pour les algorithmes intégrés

SageMaker Les algorithmes Amazon produisent des CloudWatch journaux Amazon, qui fournissent des informations détaillées sur le processus de formation. Pour consulter les journaux, dans la console de AWS gestion, choisissez Logs CloudWatch, puis choisissez le groupe de journaux TrainingJobs /aws/sagemaker/. Chaque tâche d'entraînement a un flux de journaux par nœud sur lequel elle a été entraînée. Le nom du flux de journaux commence par la valeur spécifiée dans le paramètre TrainingJobName lors de la création de la tâche.

Note

Si une tâche échoue et que les journaux n'apparaissent pas CloudWatch, il est probable qu'une erreur se soit produite avant le début de la formation. Parmi les raisons pouvant expliquer cette erreur, on peut citer la spécification de la mauvaise image d'entraînement ou du mauvais emplacement S3.

Le contenu des journaux varie selon les algorithmes. Cependant, vous pouvez généralement y trouver les informations suivantes :

  • Confirmation des arguments fournis au début du journal

  • Erreurs qui se sont produites au cours de l'entraînement

  • Mesure des performances numériques ou de la précision d'un algorithme

  • Horodatages de l'algorithme et principales étapes au sein de l'algorithme

Erreurs courantes

Si une tâche d'entraînement échoue, certains détails sur l'échec sont fournis par la valeur FailureReason renvoyée dans la description de la tâche d'entraînement, comme suit :

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

D'autres ne sont signalés que dans les CloudWatch journaux. Les erreurs courantes sont les suivantes :

  1. Spécification erronée d'un hyperparamètre ou spécification d'un hyperparamètre qui n'est pas valide pour l'algorithme.

    À partir du CloudWatch journal

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Spécification d'une valeur non valide pour un hyperparamètre

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Format de fichier protobuf inapproprié

    À partir du CloudWatch journal

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784