기본 제공 알고리즘에 대한 로그 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기본 제공 알고리즘에 대한 로그

Amazon SageMaker 알고리즘은 훈련 프로세스에 대한 자세한 정보를 제공하는 Amazon CloudWatch 로그를 생성합니다. 로그를 보려면 AWS 관리 콘솔에서 를 선택하고 로그 를 CloudWatch선택한 다음 /aws/sagemaker/TrainingJobs log 그룹 을 선택합니다. 각 훈련 작업에는 훈련된 노드당 하나의 로그 스트림이 있습니다. 로그 스트림의 이름은 작업 생성 시 TrainingJobName 파라미터에 지정된 값으로 시작합니다.

참고

작업이 실패하고 로그가 에 표시되지 않으면 훈련 시작 전에 오류가 발생했을 CloudWatch수 있습니다. 이유 중에는 잘못된 훈련 이미지 또는 S3 위치 지정이 있습니다.

로그의 콘텐츠는 알고리즘에 따라 다릅니다. 하지만 일반적으로 다음 정보를 확인할 수 있습니다.

  • 로그 시작 시 제공된 인수의 확인

  • 훈련 도중 발생한 오류

  • 알고리즘 정확도 또는 수치 성능의 측정

  • 알고리즘에 대한 시점 및 알고리즘의 모든 주요 단계

일반적인 오류

훈련 작업이 실패한 경우 훈련 작업 설명의 FailureReason 반환 값에 실패에 대한 세부 정보가 제공됩니다.

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

다른 항목은 CloudWatch 로그에서만 보고됩니다. 일반적인 오류는 다음과 같습니다.

  1. 하이퍼파라미터 미지정 또는 알고리즘에 대해 유효하지 않은 하이퍼파라미터 지정.

    CloudWatch 로그에서

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. 하이퍼파라미터에 대한 유효하지 않은 값 지정.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. 정확하지 않은 protobuf 파일 형식.

    CloudWatch 로그에서

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784