Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Referensi Amazon SageMaker Debugger
Temukan informasi dan referensi selengkapnya tentang penggunaan Amazon SageMaker Debugger dalam topik berikut.
Topik
Amazon SageMaker Debugger APIs
Amazon SageMaker Debugger memiliki API operasi di beberapa lokasi yang digunakan untuk mengimplementasikan pemantauan dan analisis pelatihan model.
Amazon SageMaker Debugger juga menyediakan sagemaker-debugger
Python
Amazon SageMaker Python SDKSMDebug
Python untuk memantau dan menganalisis SageMaker tensor ini menggunakan estimator.
Debugger telah menambahkan operasi dan tipe ke Amazon SageMaker API yang memungkinkan platform untuk menggunakan Debugger saat melatih model dan mengelola konfigurasi input dan output.
-
CreateTrainingJob
danUpdateTrainingJob
gunakan Debugger berikut APIs untuk mengonfigurasi koleksi tensor, aturan, gambar aturan, dan opsi pembuatan profil: -
DescribeTrainingJob
memberikan deskripsi lengkap tentang pekerjaan pelatihan, termasuk konfigurasi Debugger berikut dan status evaluasi aturan:
APIOperasi konfigurasi aturan menggunakan fungsionalitas SageMaker Pemrosesan saat menganalisis pelatihan model. Untuk informasi selengkapnya tentang SageMaker Pemrosesan, lihatBeban kerja transformasi data dengan SageMaker Processing.
Gambar Docker untuk aturan Debugger
Amazon SageMaker menyediakan dua set gambar Docker untuk aturan: satu set untuk mengevaluasi aturan yang disediakan oleh SageMaker (aturan bawaan) dan satu set untuk mengevaluasi aturan khusus yang disediakan dalam file sumber Python.
Jika Anda menggunakan Amazon SageMaker Python SDKConfigureTrainingJob
API
Jika Anda tidak menggunakan SageMaker PythonSDK, Anda harus mengambil image dasar container pre-built yang relevan untuk aturan Debugger. Amazon SageMaker Debugger menyediakan gambar Docker bawaan untuk aturan bawaan dan kustom, dan gambar disimpan di Amazon Elastic Container Registry (Amazon). ECR Untuk menarik gambar dari ECR repositori Amazon (atau untuk mendorong gambar ke satu), gunakan registri URL nama lengkap gambar menggunakan file. CreateTrainingJob
API SageMaker menggunakan URL pola berikut untuk alamat registri gambar container aturan Debugger.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Untuk ID akun di setiap AWS Wilayah, nama ECR repositori Amazon, dan nilai tag, lihat topik berikut.
Topik
Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan bawaan
Gunakan nilai berikut untuk komponen registri URLs untuk gambar yang menyediakan aturan bawaan untuk Amazon SageMaker Debugger. Untuk akunIDs, lihat tabel berikut.
ECRNama Repositori: sagemaker-debugger-rules
Tag: terbaru
Contoh registri lengkap URL:
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Akun IDs untuk Gambar Kontainer Aturan Built-in berdasarkan AWS Wilayah
Wilayah | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan kustom
Gunakan nilai berikut untuk komponen registri URL untuk gambar yang menyediakan evaluator aturan kustom untuk Amazon SageMaker Debugger. Untuk akunIDs, lihat tabel berikut.
ECRNama Repositori: sagemaker-debugger-rule-evaluator
Tag: terbaru
Contoh registri lengkap URL:
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Akun IDs untuk Gambar Kontainer Aturan Kustom menurut AWS Wilayah
Wilayah | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Pengecualian Amazon SageMaker Debugger
Amazon SageMaker Debugger dirancang untuk mengetahui bahwa tensor yang diperlukan untuk menjalankan aturan mungkin tidak tersedia di setiap langkah. Akibatnya, ini menimbulkan beberapa pengecualian, yang memungkinkan Anda mengontrol apa yang terjadi ketika tensor hilang. Pengecualian ini tersedia di modul smdebug.exceptions
from smdebug.exceptions import *
Pengecualian berikut tersedia:
-
TensorUnavailableForStep
— Tensor yang diminta tidak tersedia untuk langkah tersebut. Ini mungkin berarti bahwa langkah ini mungkin tidak disimpan sama sekali oleh hook, atau bahwa langkah ini mungkin telah menghemat beberapa tensor tetapi tensor yang diminta bukan bagian dari mereka. Perhatikan bahwa ketika Anda melihat pengecualian ini, itu berarti tensor ini tidak akan pernah tersedia untuk langkah ini di masa mendatang. Jika tensor memiliki pengurangan yang disimpan untuk langkah tersebut, itu memberi tahu Anda bahwa tensor dapat ditanyakan. -
TensorUnavailable
— Tensor ini tidak diselamatkan atau belum diselamatkan oleh.smdebug
API Ini berarti bahwa tensor ini tidak pernah terlihat untuk langkah apa pun.smdebug
-
StepUnavailable
— Langkah itu tidak disimpan dan Debugger tidak memiliki data dari langkah. -
StepNotYetAvailable
Langkahnya belum terlihat olehsmdebug
. Ini mungkin tersedia di masa depan jika pelatihan masih berlangsung. Debugger secara otomatis memuat data baru saat tersedia. -
NoMoreData
— Dibesarkan saat pelatihan berakhir. Begitu Anda melihat ini, Anda tahu bahwa tidak ada lagi langkah dan tidak ada lagi tensor yang harus diselamatkan. -
IndexReaderException
— Pembaca indeks tidak valid. -
InvalidWorker
— Seorang pekerja dipanggil yang tidak valid. -
RuleEvaluationConditionMet
— Evaluasi aturan di langkah menghasilkan kondisi terpenuhi. -
InsufficientInformationForRuleInvocation
— Informasi yang tidak memadai diberikan untuk menerapkan aturan.
Pelatihan terdistribusi yang didukung oleh Amazon SageMaker Debugger
Daftar berikut menunjukkan ruang lingkup validitas dan pertimbangan untuk menggunakan Debugger pada pekerjaan pelatihan dengan kerangka pembelajaran mendalam dan berbagai opsi pelatihan terdistribusi.
-
Horovod
Lingkup validitas penggunaan Debugger untuk pekerjaan pelatihan dengan Horovod
Kerangka Pembelajaran Mendalam Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch Pemantauan kemacetan sistem Ya Ya Ya Ya Ya Operasi kerangka kerja profil Tidak Tidak Tidak Ya Ya Tensor keluaran model debugging Ya Ya Ya Ya Ya -
SageMaker paralel data terdistribusi
Lingkup validitas menggunakan Debugger untuk pekerjaan pelatihan dengan SageMaker data paralel terdistribusi
Kerangka Pembelajaran Mendalam TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch Pemantauan kemacetan sistem Ya Ya Ya Operasi kerangka kerja profil Tidak* Tidak** Ya Tensor keluaran model debugging Ya Ya Ya * Debugger tidak mendukung pembuatan profil kerangka kerja untuk 2.x. TensorFlow
** SageMaker distributed data parallel tidak mendukung TensorFlow 2.x dengan implementasi Keras.
-
SageMaker distributed model parallel — Debugger tidak mendukung pelatihan paralel model SageMaker terdistribusi.
-
Pelatihan terdistribusi dengan SageMaker pos pemeriksaan — Debugger tidak tersedia untuk pekerjaan pelatihan ketika opsi pelatihan terdistribusi dan SageMaker pos pemeriksaan diaktifkan. Anda mungkin melihat kesalahan yang terlihat seperti berikut:
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Untuk menggunakan Debugger untuk pekerjaan pelatihan dengan opsi pelatihan terdistribusi, Anda perlu menonaktifkan SageMaker checkpointing dan menambahkan fungsi checkpointing manual ke skrip pelatihan Anda. Untuk informasi selengkapnya tentang penggunaan Debugger dengan opsi pelatihan terdistribusi dan pos pemeriksaan, lihat dan. Menggunakan data SageMaker terdistribusi paralel dengan Amazon SageMaker Debugger dan pos pemeriksaan Menyimpan Pos Pemeriksaan
-
Parameter Server - Debugger tidak mendukung pelatihan terdistribusi berbasis server parameter.
-
Membuat profil operasi kerangka pelatihan terdistribusi, seperti
AllReduced
pengoperasian data paralel SageMaker terdistribusi dan operasi Horovod, tidak tersedia.