Referensi Amazon SageMaker Debugger - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Referensi Amazon SageMaker Debugger

Temukan informasi dan referensi selengkapnya tentang penggunaan Amazon SageMaker Debugger dalam topik berikut.

Amazon SageMaker Debugger APIs

Amazon SageMaker Debugger memiliki API operasi di beberapa lokasi yang digunakan untuk mengimplementasikan pemantauan dan analisis pelatihan model.

Amazon SageMaker Debugger juga menyediakan sagemaker-debuggerPython open source SDK yang digunakan untuk mengonfigurasi aturan bawaan, menentukan aturan khusus, dan mendaftarkan kait untuk mengumpulkan data tensor keluaran dari pekerjaan pelatihan.

Amazon SageMaker Python SDK adalah tingkat tinggi yang SDK berfokus pada eksperimen pembelajaran mesin. SDKDapat digunakan untuk menerapkan aturan bawaan atau khusus yang ditentukan dengan pustaka SMDebug Python untuk memantau dan menganalisis SageMaker tensor ini menggunakan estimator.

Debugger telah menambahkan operasi dan tipe ke Amazon SageMaker API yang memungkinkan platform untuk menggunakan Debugger saat melatih model dan mengelola konfigurasi input dan output.

APIOperasi konfigurasi aturan menggunakan fungsionalitas SageMaker Pemrosesan saat menganalisis pelatihan model. Untuk informasi selengkapnya tentang SageMaker Pemrosesan, lihatBeban kerja transformasi data dengan SageMaker Processing.

Gambar Docker untuk aturan Debugger

Amazon SageMaker menyediakan dua set gambar Docker untuk aturan: satu set untuk mengevaluasi aturan yang disediakan oleh SageMaker (aturan bawaan) dan satu set untuk mengevaluasi aturan khusus yang disediakan dalam file sumber Python.

Jika Anda menggunakan Amazon SageMaker Python SDK, Anda cukup menggunakan operasi Debugger SageMaker tingkat tinggi dengan API operasi SageMaker Estimator, tanpa harus mengambil gambar Debugger Docker secara manual dan API mengonfigurasinya. ConfigureTrainingJob API

Jika Anda tidak menggunakan SageMaker PythonSDK, Anda harus mengambil image dasar container pre-built yang relevan untuk aturan Debugger. Amazon SageMaker Debugger menyediakan gambar Docker bawaan untuk aturan bawaan dan kustom, dan gambar disimpan di Amazon Elastic Container Registry (Amazon). ECR Untuk menarik gambar dari ECR repositori Amazon (atau untuk mendorong gambar ke satu), gunakan registri URL nama lengkap gambar menggunakan file. CreateTrainingJob API SageMaker menggunakan URL pola berikut untuk alamat registri gambar container aturan Debugger.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Untuk ID akun di setiap AWS Wilayah, nama ECR repositori Amazon, dan nilai tag, lihat topik berikut.

Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan bawaan

Gunakan nilai berikut untuk komponen registri URLs untuk gambar yang menyediakan aturan bawaan untuk Amazon SageMaker Debugger. Untuk akunIDs, lihat tabel berikut.

ECRNama Repositori: sagemaker-debugger-rules

Tag: terbaru

Contoh registri lengkap URL:

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Akun IDs untuk Gambar Kontainer Aturan Built-in berdasarkan AWS Wilayah

Wilayah account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan kustom

Gunakan nilai berikut untuk komponen registri URL untuk gambar yang menyediakan evaluator aturan kustom untuk Amazon SageMaker Debugger. Untuk akunIDs, lihat tabel berikut.

ECRNama Repositori: sagemaker-debugger-rule-evaluator

Tag: terbaru

Contoh registri lengkap URL:

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Akun IDs untuk Gambar Kontainer Aturan Kustom menurut AWS Wilayah

Wilayah account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Pengecualian Amazon SageMaker Debugger

Amazon SageMaker Debugger dirancang untuk mengetahui bahwa tensor yang diperlukan untuk menjalankan aturan mungkin tidak tersedia di setiap langkah. Akibatnya, ini menimbulkan beberapa pengecualian, yang memungkinkan Anda mengontrol apa yang terjadi ketika tensor hilang. Pengecualian ini tersedia di modul smdebug.exceptions. Anda dapat mengimpornya sebagai berikut:

from smdebug.exceptions import *

Pengecualian berikut tersedia:

  • TensorUnavailableForStep— Tensor yang diminta tidak tersedia untuk langkah tersebut. Ini mungkin berarti bahwa langkah ini mungkin tidak disimpan sama sekali oleh hook, atau bahwa langkah ini mungkin telah menghemat beberapa tensor tetapi tensor yang diminta bukan bagian dari mereka. Perhatikan bahwa ketika Anda melihat pengecualian ini, itu berarti tensor ini tidak akan pernah tersedia untuk langkah ini di masa mendatang. Jika tensor memiliki pengurangan yang disimpan untuk langkah tersebut, itu memberi tahu Anda bahwa tensor dapat ditanyakan.

  • TensorUnavailable— Tensor ini tidak diselamatkan atau belum diselamatkan oleh. smdebug API Ini berarti bahwa tensor ini tidak pernah terlihat untuk langkah apa pun. smdebug

  • StepUnavailable— Langkah itu tidak disimpan dan Debugger tidak memiliki data dari langkah.

  • StepNotYetAvailableLangkahnya belum terlihat olehsmdebug. Ini mungkin tersedia di masa depan jika pelatihan masih berlangsung. Debugger secara otomatis memuat data baru saat tersedia.

  • NoMoreData— Dibesarkan saat pelatihan berakhir. Begitu Anda melihat ini, Anda tahu bahwa tidak ada lagi langkah dan tidak ada lagi tensor yang harus diselamatkan.

  • IndexReaderException— Pembaca indeks tidak valid.

  • InvalidWorker— Seorang pekerja dipanggil yang tidak valid.

  • RuleEvaluationConditionMet— Evaluasi aturan di langkah menghasilkan kondisi terpenuhi.

  • InsufficientInformationForRuleInvocation— Informasi yang tidak memadai diberikan untuk menerapkan aturan.

Pelatihan terdistribusi yang didukung oleh Amazon SageMaker Debugger

Daftar berikut menunjukkan ruang lingkup validitas dan pertimbangan untuk menggunakan Debugger pada pekerjaan pelatihan dengan kerangka pembelajaran mendalam dan berbagai opsi pelatihan terdistribusi.

  • Horovod

    Lingkup validitas penggunaan Debugger untuk pekerjaan pelatihan dengan Horovod

    Kerangka Pembelajaran Mendalam Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch
    Pemantauan kemacetan sistem Ya Ya Ya Ya Ya
    Operasi kerangka kerja profil Tidak Tidak Tidak Ya Ya
    Tensor keluaran model debugging Ya Ya Ya Ya Ya
  • SageMaker paralel data terdistribusi

    Lingkup validitas menggunakan Debugger untuk pekerjaan pelatihan dengan SageMaker data paralel terdistribusi

    Kerangka Pembelajaran Mendalam TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch
    Pemantauan kemacetan sistem Ya Ya Ya
    Operasi kerangka kerja profil Tidak* Tidak** Ya
    Tensor keluaran model debugging Ya Ya Ya

    * Debugger tidak mendukung pembuatan profil kerangka kerja untuk 2.x. TensorFlow

    ** SageMaker distributed data parallel tidak mendukung TensorFlow 2.x dengan implementasi Keras.

  • SageMaker distributed model parallel — Debugger tidak mendukung pelatihan paralel model SageMaker terdistribusi.

  • Pelatihan terdistribusi dengan SageMaker pos pemeriksaan — Debugger tidak tersedia untuk pekerjaan pelatihan ketika opsi pelatihan terdistribusi dan SageMaker pos pemeriksaan diaktifkan. Anda mungkin melihat kesalahan yang terlihat seperti berikut:

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Untuk menggunakan Debugger untuk pekerjaan pelatihan dengan opsi pelatihan terdistribusi, Anda perlu menonaktifkan SageMaker checkpointing dan menambahkan fungsi checkpointing manual ke skrip pelatihan Anda. Untuk informasi selengkapnya tentang penggunaan Debugger dengan opsi pelatihan terdistribusi dan pos pemeriksaan, lihat dan. Menggunakan data SageMaker terdistribusi paralel dengan Amazon SageMaker Debugger dan pos pemeriksaan Menyimpan Pos Pemeriksaan

  • Parameter Server - Debugger tidak mendukung pelatihan terdistribusi berbasis server parameter.

  • Membuat profil operasi kerangka pelatihan terdistribusi, seperti AllReduced pengoperasian data paralel SageMaker terdistribusi dan operasi Horovod, tidak tersedia.