Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Referensi Amazon SageMaker Debugger
Temukan informasi dan referensi selengkapnya tentang penggunaan Amazon SageMaker Debugger dalam topik berikut.
Topik
Amazon SageMaker Debugger APIs
Amazon SageMaker Debugger memiliki operasi API di beberapa lokasi yang digunakan untuk mengimplementasikan pemantauan dan analisis pelatihan model.
Amazon SageMaker Debugger juga menyediakan SDK sagemaker-debugger
Python
Amazon SageMaker AI Python SDK adalah SDKSMDebug
Python untuk memantau dan menganalisis tensor ini menggunakan estimator AI. SageMaker
Debugger telah menambahkan operasi dan tipe ke Amazon SageMaker API yang memungkinkan platform untuk menggunakan Debugger saat melatih model dan mengelola konfigurasi input dan output.
-
CreateTrainingJob
danUpdateTrainingJob
gunakan Debugger berikut APIs untuk mengonfigurasi koleksi tensor, aturan, gambar aturan, dan opsi pembuatan profil: -
DescribeTrainingJob
memberikan deskripsi lengkap tentang pekerjaan pelatihan, termasuk konfigurasi Debugger berikut dan status evaluasi aturan:
Operasi API konfigurasi aturan menggunakan fungsionalitas SageMaker Pemrosesan saat menganalisis pelatihan model. Untuk informasi selengkapnya tentang SageMaker Pemrosesan, lihatBeban kerja transformasi data dengan SageMaker Processing.
Gambar Docker untuk aturan Debugger
Amazon SageMaker AI menyediakan dua set gambar Docker untuk aturan: satu set untuk mengevaluasi aturan yang disediakan oleh SageMaker AI (aturan bawaan) dan satu set untuk mengevaluasi aturan khusus yang disediakan dalam file sumber Python.
Jika Anda menggunakan Amazon SageMaker Python SDKConfigureTrainingJob
Jika Anda tidak menggunakan SageMaker Python SDK, Anda harus mengambil image dasar container pre-built yang relevan untuk aturan Debugger. Amazon SageMaker Debugger menyediakan gambar Docker yang sudah dibuat sebelumnya untuk aturan bawaan dan kustom, dan gambar disimpan di Amazon Elastic Container Registry (Amazon ECR). Untuk menarik gambar dari repositori Amazon ECR (atau untuk mendorong gambar ke satu), gunakan URL registri nama lengkap gambar menggunakan API. CreateTrainingJob
SageMaker AI menggunakan pola URL berikut untuk alamat registri gambar container aturan Debugger.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Untuk ID akun di setiap AWS Wilayah, nama repositori Amazon ECR, dan nilai tag, lihat topik berikut.
Topik
Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan bawaan
Gunakan nilai berikut untuk komponen registri URLs untuk gambar yang menyediakan aturan bawaan untuk Amazon SageMaker Debugger. Untuk akun IDs, lihat tabel berikut.
Nama Repositori ECR: sagemaker-debugger-rules
Tag: terbaru
Contoh URL registri lengkap:
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Akun IDs untuk Gambar Kontainer Aturan Built-in berdasarkan AWS Wilayah
Wilayah | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Gambar Amazon SageMaker Debugger URIs untuk evaluator aturan kustom
Gunakan nilai berikut untuk komponen URL registri untuk gambar yang menyediakan evaluator aturan khusus untuk Amazon SageMaker Debugger. Untuk akun IDs, lihat tabel berikut.
Nama Repositori ECR: sagemaker-debugger-rule-evaluator
Tag: terbaru
Contoh URL registri lengkap:
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Akun IDs untuk Gambar Kontainer Aturan Kustom menurut AWS Wilayah
Wilayah | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Pengecualian Amazon SageMaker Debugger
Amazon SageMaker Debugger dirancang untuk mengetahui bahwa tensor yang diperlukan untuk menjalankan aturan mungkin tidak tersedia di setiap langkah. Akibatnya, ini menimbulkan beberapa pengecualian, yang memungkinkan Anda mengontrol apa yang terjadi ketika tensor hilang. Pengecualian ini tersedia di modul smdebug.exceptions
from smdebug.exceptions import *
Pengecualian berikut tersedia:
-
TensorUnavailableForStep
— Tensor yang diminta tidak tersedia untuk langkah tersebut. Ini mungkin berarti bahwa langkah ini mungkin tidak disimpan sama sekali oleh hook, atau bahwa langkah ini mungkin telah menghemat beberapa tensor tetapi tensor yang diminta bukan bagian dari mereka. Perhatikan bahwa ketika Anda melihat pengecualian ini, itu berarti tensor ini tidak akan pernah tersedia untuk langkah ini di masa mendatang. Jika tensor memiliki pengurangan yang disimpan untuk langkah tersebut, itu memberi tahu Anda bahwa tensor dapat ditanyai. -
TensorUnavailable
— Tensor ini tidak disimpan atau belum disimpan olehsmdebug
API. Ini berarti bahwa tensor ini tidak pernah terlihat untuk langkah apa pun.smdebug
-
StepUnavailable
— Langkah itu tidak disimpan dan Debugger tidak memiliki data dari langkah. -
StepNotYetAvailable
Langkahnya belum terlihat olehsmdebug
. Ini mungkin tersedia di masa depan jika pelatihan masih berlangsung. Debugger secara otomatis memuat data baru saat tersedia. -
NoMoreData
— Dibesarkan saat pelatihan berakhir. Begitu Anda melihat ini, Anda tahu bahwa tidak ada lagi langkah dan tidak ada lagi tensor yang harus diselamatkan. -
IndexReaderException
— Pembaca indeks tidak valid. -
InvalidWorker
— Seorang pekerja dipanggil yang tidak valid. -
RuleEvaluationConditionMet
— Evaluasi aturan di langkah menghasilkan kondisi terpenuhi. -
InsufficientInformationForRuleInvocation
— Informasi yang tidak memadai diberikan untuk menerapkan aturan.
Pelatihan terdistribusi yang didukung oleh Amazon SageMaker Debugger
Daftar berikut menunjukkan ruang lingkup validitas dan pertimbangan untuk menggunakan Debugger pada pekerjaan pelatihan dengan kerangka pembelajaran mendalam dan berbagai opsi pelatihan terdistribusi.
-
Horovod
Lingkup validitas penggunaan Debugger untuk pekerjaan pelatihan dengan Horovod
Kerangka Pembelajaran Mendalam Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch Pemantauan kemacetan sistem Ya Ya Ya Ya Ya Operasi kerangka kerja profil Tidak Tidak Tidak Ya Ya Tensor keluaran model debugging Ya Ya Ya Ya Ya -
SageMaker AI mendistribusikan data paralel
Lingkup validitas penggunaan Debugger untuk pekerjaan pelatihan dengan SageMaker AI distributed data parallel
Kerangka Pembelajaran Mendalam TensorFlow 2.x TensorFlow 2.x dengan Keras PyTorch Pemantauan kemacetan sistem Ya Ya Ya Operasi kerangka kerja profil Tidak* Tidak** Ya Tensor keluaran model debugging Ya Ya Ya * Debugger tidak mendukung pembuatan profil kerangka kerja untuk 2.x. TensorFlow
** SageMaker AI distributed data parallel tidak mendukung TensorFlow 2.x dengan implementasi Keras.
-
SageMaker Model paralel terdistribusi AI — Debugger tidak mendukung pelatihan paralel model terdistribusi SageMaker AI.
-
Pelatihan terdistribusi dengan pos pemeriksaan SageMaker AI - Debugger tidak tersedia untuk pekerjaan pelatihan ketika opsi pelatihan terdistribusi dan pos pemeriksaan SageMaker AI diaktifkan. Anda mungkin melihat kesalahan yang terlihat seperti berikut:
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Untuk menggunakan Debugger untuk pekerjaan pelatihan dengan opsi pelatihan terdistribusi, Anda perlu menonaktifkan checkpointing SageMaker AI dan menambahkan fungsi checkpointing manual ke skrip pelatihan Anda. Untuk informasi selengkapnya tentang penggunaan Debugger dengan opsi pelatihan terdistribusi dan pos pemeriksaan, lihat dan. Menggunakan data terdistribusi SageMaker AI paralel dengan Amazon SageMaker Debugger dan pos pemeriksaan Menyimpan Pos Pemeriksaan
-
Parameter Server - Debugger tidak mendukung pelatihan terdistribusi berbasis server parameter.
-
Membuat profil operasi kerangka pelatihan terdistribusi, seperti
AllReduced
pengoperasian paralel data terdistribusi SageMaker AI dan operasi Horovod, tidak tersedia.