Log untuk Algoritma Bawaan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Log untuk Algoritma Bawaan

SageMaker Algoritma Amazon menghasilkan CloudWatch log Amazon, yang memberikan informasi rinci tentang proses pelatihan. Untuk melihat log, di konsol AWS manajemen, pilih, pilih Log CloudWatch, lalu pilih grup log TrainingJobs /aws/sagemaker/. Setiap pekerjaan pelatihan memiliki satu aliran log per node tempat ia dilatih. Nama log stream dimulai dengan nilai yang ditentukan dalam TrainingJobName parameter saat pekerjaan dibuat.

catatan

Jika pekerjaan gagal dan log tidak muncul CloudWatch, kemungkinan kesalahan terjadi sebelum dimulainya pelatihan. Alasannya termasuk menentukan gambar pelatihan yang salah atau lokasi S3.

Isi log bervariasi menurut algoritma. Namun, Anda biasanya dapat menemukan informasi berikut:

  • Konfirmasi argumen yang diberikan di awal log

  • Kesalahan yang terjadi selama pelatihan

  • Pengukuran akurasi algoritma atau kinerja numerik

  • Pengaturan waktu untuk algoritma dan tahapan utama apa pun dalam algoritma

Kesalahan Umum

Jika pekerjaan pelatihan gagal, beberapa detail tentang kegagalan diberikan oleh nilai FailureReason pengembalian dalam uraian pekerjaan pelatihan, sebagai berikut:

sage = boto3.client('sagemaker') sage.describe_training_job(TrainingJobName=job_name)['FailureReason']

Lainnya dilaporkan hanya di CloudWatch log. Kesalahan umum termasuk yang berikut:

  1. Salah menentukan hyperparameter atau menentukan hyperparameter yang tidak valid untuk algoritma.

    Dari CloudWatch Log

    [10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
  2. Menentukan nilai yang tidak valid untuk hyperparameter.

    FailureReason

    AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\

    FailureReason

    [10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
  3. Format file protobuf yang tidak akurat.

    Dari CloudWatch log

    [10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784