Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Bagaimana Amazon SageMaker Menjalankan Gambar Pelatihan Anda
Anda dapat menggunakan skrip entrypoint khusus untuk mengotomatiskan infrastruktur untuk melatih di lingkungan produksi. Jika Anda meneruskan skrip entrypoint Anda ke wadah Docker Anda, Anda juga dapat menjalankannya sebagai skrip mandiri tanpa membangun kembali gambar Anda. SageMakermemproses gambar pelatihan Anda menggunakan skrip titik masuk kontainer Docker.
Bagian ini menunjukkan cara menggunakan entrypoint khusus tanpa menggunakan toolkit pelatihan. Jika Anda ingin menggunakan entrypoint khusus tetapi tidak terbiasa dengan cara mengonfigurasi wadah Docker secara manual, kami sarankan Anda menggunakan perpustakaan toolkit SageMaker pelatihan
Secara default, SageMaker cari skrip yang dipanggil train
di dalam wadah Anda. Anda juga dapat secara manual memberikan entrypoint kustom Anda sendiri dengan menggunakan ContainerArguments
dan ContainerEntrypoint
parameter dari. AlgorithmSpecificationAPI
Anda memiliki dua opsi berikut untuk mengonfigurasi wadah Docker Anda secara manual untuk menjalankan gambar Anda.
-
Gunakan CreateTrainingJobAPIdan wadah Docker dengan instruksi entrypoint yang terkandung di dalamnya.
-
Gunakan
CreateTrainingJob
API, dan teruskan skrip pelatihan Anda dari luar wadah Docker Anda.
Jika Anda meneruskan skrip pelatihan Anda dari luar wadah Docker Anda, Anda tidak perlu membangun kembali wadah Docker saat Anda memperbarui skrip Anda. Anda juga dapat menggunakan beberapa skrip berbeda untuk dijalankan di wadah yang sama.
Skrip entrypoint Anda harus berisi kode pelatihan untuk gambar Anda. Jika Anda menggunakan source_dir
parameter opsional di dalam estimatorsource_dir
parameter. Jika Anda tidak menggunakansource_dir
, Anda dapat menentukan titik masuk menggunakan parameter. entry_point
Untuk contoh skrip entrypoint kustom yang berisi estimator, lihat Membawa Model Anda Sendiri dengan SageMaker
SageMaker pelatihan model mendukung bucket direktori S3 Express One Zone berkinerja tinggi sebagai lokasi input data untuk mode file, mode file cepat, dan mode pipa. Anda juga dapat menggunakan bucket direktori S3 Express One Zone untuk menyimpan output pelatihan Anda. Untuk menggunakan S3 Express One Zone, berikan bucket direktori S3 Express One Zone, bukan bucket tujuan umum Amazon S3. URI Anda hanya dapat mengenkripsi data SageMaker keluaran dalam bucket direktori dengan enkripsi sisi server dengan kunci terkelola Amazon S3 (-S3). SSE Enkripsi sisi server dengan AWS KMS kunci (SSE-KMS) saat ini tidak didukung untuk menyimpan data SageMaker keluaran dalam bucket direktori. Untuk informasi selengkapnya, lihat S3 Express One Zone.
Jalankan pekerjaan pelatihan dengan skrip entrypoint yang dibundel di dalam wadah Docker
SageMaker dapat menjalankan skrip titik masuk yang dibundel di dalam wadah Docker Anda.
-
Secara default, Amazon SageMaker menjalankan penampung berikut.
docker run
image
train -
SageMaker mengganti CMD
pernyataan default apa pun dalam wadah dengan menentukan train
argumen setelah nama gambar. Dalam wadah Docker Anda, gunakanexec
bentukENTRYPOINT
instruksi berikut.ENTRYPOINT ["
executable
", "param1
", "param2
", ...]Contoh berikut menunjukkan bagaimana menentukan instruksi entrypoint python yang disebut.
k-means-algorithm.py
ENTRYPOINT ["python", "k-means-algorithm.py"]
exec
BentukENTRYPOINT
instruksi memulai eksekusi secara langsung, bukan sebagai anak dari./bin/sh
Ini memungkinkannya untuk menerima sinyal sepertiSIGTERM
danSIGKILL
dari SageMaker APIs. Ketentuan berikut berlaku saat menggunakan SageMaker APIs.-
CreateTrainingJob
APIMemiliki kondisi berhenti yang mengarahkan SageMaker untuk menghentikan pelatihan model setelah waktu tertentu. -
Berikut ini menunjukkan
StopTrainingJob
API. Ini API mengeluarkan yang setara dengandocker stop
, dengan perintah batas waktu 2 menit untuk menghentikan wadah yang ditentukan dengan anggun.docker stop -t 120
Perintah mencoba menghentikan wadah yang sedang berjalan dengan mengirimkan
SIGTERM
sinyal. Setelah batas waktu 2 menit, API mengirimSIGKILL
dan menghentikan kontainer secara paksa. Jika wadah menanganiSIGTERM
dengan anggun dan keluar dalam waktu 120 detik sejak menerimanya, tidak adaSIGKILL
yang dikirim.
Jika Anda ingin akses ke artefak model perantara setelah SageMaker menghentikan pelatihan, tambahkan kode untuk menangani penyimpanan artefak di handler Anda
SIGTERM
. -
-
Jika Anda berencana menggunakan GPU perangkat untuk pelatihan model, pastikan wadah Anda
nvidia-docker
kompatibel. Sertakan hanya CUDA toolkit pada wadah; jangan bundel NVIDIA driver dengan gambar. Untuk informasi selengkapnyanvidia-docker
, lihat NVIDIA/nvidia-docker. -
Anda tidak dapat menggunakan
tini
penginisialisasi sebagai skrip titik masuk Anda dalam SageMaker wadah karena menjadi bingung oleh argumen dan.train
serve
-
/opt/ml
dan semua subdirektori dicadangkan oleh SageMaker pelatihan. Saat membuat image Docker algoritme Anda, pastikan Anda tidak menempatkan data apa pun yang diperlukan oleh algoritme Anda di direktori ini. Karena jika Anda melakukannya, data mungkin tidak lagi terlihat selama pelatihan.
Untuk menggabungkan skrip shell atau Python Anda di dalam image Docker Anda, atau untuk menyediakan skrip dalam bucket Amazon S3 atau dengan menggunakan AWS Command Line Interface (CLI), lanjutkan ke bagian berikut.
Bundel skrip shell Anda dalam wadah Docker
Jika Anda ingin menggabungkan skrip shell khusus di dalam gambar Docker Anda, gunakan langkah-langkah berikut.
-
Salin skrip shell Anda dari direktori kerja Anda ke dalam wadah Docker Anda. Cuplikan kode berikut menyalin skrip entrypoint kustom
custom_entrypoint.sh
dari direktori kerja saat ini ke wadah Docker yang terletak di.mydir
Contoh berikut mengasumsikan bahwa image Docker dasar telah diinstal Python.FROM
<base-docker-image>
:<tag>
# Copy custom entrypoint from current dir to /mydir on container COPY./custom_entrypoint.sh /mydir/
-
Buat dan dorong wadah Docker ke Amazon Elastic Container Registry (Amazon ECR) dengan mengikuti petunjuk di Mendorong gambar Docker di ECRPanduan Pengguna Amazon.
-
Luncurkan pekerjaan pelatihan dengan menjalankan AWS CLI perintah berikut.
aws --region
<your-region>
sagemaker create-training-job \ --training-job-name<your-training-job-name>
\ --role-arn<your-execution-role-arn>
\ --algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "<your-ecr-image>
", \ "ContainerEntrypoint": ["/bin/sh
"], \ "ContainerArguments": ["/mydir/custom_entrypoint.sh
"]}' \ --output-data-config '{"S3OutputPath": "s3://custom-entrypoint-output-bucket/
"}' \ --resource-config '{"VolumeSizeInGB":10
,"InstanceCount":1
,"InstanceType":"ml.m5.2xlarge
"}' \ --stopping-condition '{"MaxRuntimeInSeconds":180
}'
Bundel skrip Python Anda dalam wadah Docker
Untuk menggabungkan skrip Python khusus di dalam gambar Docker Anda, gunakan langkah-langkah berikut.
-
Salin skrip Python Anda dari direktori kerja Anda ke dalam wadah Docker Anda. Cuplikan kode berikut menyalin skrip entrypoint kustom
custom_entrypoint.py
dari direktori kerja saat ini ke wadah Docker yang terletak di.mydir
FROM
<base-docker-image>
:<tag>
# Copy custom entrypoint from current dir to /mydir on container COPY./custom_entrypoint.py /mydir/
-
Luncurkan pekerjaan pelatihan dengan menjalankan AWS CLI perintah berikut.
--algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "
<your-ecr-image>
", \ "ContainerEntrypoint": ["python
"], \ "ContainerArguments": ["/mydir/custom_entrypoint.py
"]}' \
Jalankan pekerjaan pelatihan dengan skrip titik masuk di luar wadah Docker
Anda dapat menggunakan wadah Docker Anda sendiri untuk pelatihan dan meneruskan skrip titik masuk dari luar wadah Docker. Ada beberapa manfaat untuk menyusun skrip entrypoint Anda di luar wadah. Jika Anda memperbarui skrip entrypoint Anda, Anda tidak perlu membangun kembali wadah Docker. Anda juga dapat menggunakan beberapa skrip berbeda untuk dijalankan di wadah yang sama.
Tentukan lokasi skrip pelatihan Anda menggunakan ContainerEntrypoint
dan ContainerArguments
parameter AlgorithmSpecificationAPI. Titik masuk dan argumen ini berperilaku dengan cara yang sama seperti titik masuk dan argumen Docker. Nilai dalam parameter ini mengesampingkan yang sesuai ENTRYPOINT
atau CMD
disediakan sebagai bagian dari wadah Docker.
Saat Anda meneruskan skrip entrypoint kustom Anda ke wadah pelatihan Docker Anda, input yang Anda berikan menentukan perilaku penampung.
-
Misalnya, jika Anda hanya menyediakan
ContainerEntrypoint
, sintaks permintaan menggunakan CreateTrainingJob API adalah sebagai berikut.{ "AlgorithmSpecification": { "ContainerEntrypoint": ["
string
"], ... } }Kemudian, backend SageMaker pelatihan menjalankan entrypoint khusus Anda sebagai berikut.
docker run --entrypoint
<ContainerEntrypoint>
imagecatatan
Jika
ContainerEntrypoint
disediakan, backend SageMaker pelatihan menjalankan gambar dengan titik masuk yang diberikan dan mengganti default pada gambar.ENTRYPOINT
-
Jika Anda hanya menyediakan
ContainerArguments
, SageMaker asumsikan bahwa wadah Docker berisi skrip titik masuk. Sintaks permintaan menggunakanCreateTrainingJob
API adalah sebagai berikut.{ "AlgorithmSpecification": { "ContainerArguments": ["
arg1
", "arg2
"], ... } }Backend SageMaker pelatihan menjalankan entrypoint kustom Anda sebagai berikut.
docker run image
<ContainerArguments>
-
Jika Anda memberikan keduanya
ContainerEntrypoint
danContainerArguments
, maka sintaks permintaan menggunakanCreateTrainingJob
API adalah sebagai berikut.{ "AlgorithmSpecification": { "ContainerEntrypoint": ["
string
"], "ContainerArguments": ["arg1
", "arg2
"], ... } }Backend SageMaker pelatihan menjalankan entrypoint kustom Anda sebagai berikut.
docker run --entrypoint
<ContainerEntrypoint>
image<ContainerArguments>
Anda dapat menggunakan InputDataConfig
sumber apa pun yang didukung CreateTrainingJob
API untuk menyediakan skrip titik masuk untuk menjalankan gambar pelatihan Anda.
Berikan skrip entrypoint Anda di bucket Amazon S3
Untuk menyediakan skrip entrypoint kustom menggunakan bucket S3, gunakan S3DataSource
parameter DataSourceAPIuntuk menentukan lokasi skrip. Jika Anda menggunakan S3DataSource
parameter, berikut ini diperlukan.
-
InputModeHarus dari tipe
File
. -
S3 DataDistributionType harus.
FullyReplicated
Contoh berikut memiliki skrip bernama custom_entrypoint.sh ditempatkan di jalur ke bucket s3://<bucket-name>/<bucket
prefix>/custom_entrypoint.sh
S3.
#!/bin/bash echo "Running custom_entrypoint.sh" echo "Hello you have provided the following arguments: " "$@"
Selanjutnya, Anda harus mengatur konfigurasi saluran data input untuk menjalankan pekerjaan pelatihan. Lakukan ini baik dengan menggunakan secara AWS CLI langsung atau dengan JSON file.
Konfigurasikan saluran data input menggunakan AWS CLI dengan JSON file
Untuk mengkonfigurasi saluran data input Anda dengan JSON file, gunakan AWS CLI seperti yang ditunjukkan dalam struktur kode berikut. Pastikan bahwa semua bidang berikut menggunakan sintaks permintaan yang didefinisikan dalam. CreateTrainingJobAPI
// run-my-training-job.json { "AlgorithmSpecification": { "ContainerEntrypoint": ["
/bin/sh
"], "ContainerArguments": ["/opt/ml/input/data/<your_channel_name>
/custom_entrypoint.sh
"], ... }, "InputDataConfig": [ { "ChannelName": "<your_channel_name>
", "DataSource": { "S3DataSource": { "S3DataDistributionType": "FullyReplicated", "S3DataType": "S3Prefix", "S3Uri": "s3://<bucket-name>
/<bucket_prefix>
" } }, "InputMode": "File", }, ...] }
Selanjutnya, jalankan AWS CLI perintah untuk meluncurkan pekerjaan pelatihan dari JSON file sebagai berikut.
aws sagemaker create-training-job --cli-input-json file:
//run-my-training-job.json
Konfigurasikan saluran data input menggunakan AWS CLI secara langsung
Untuk mengkonfigurasi saluran data input Anda tanpa JSON file, gunakan struktur AWS CLI kode berikut.
aws --region
<your-region>
sagemaker create-training-job \ --training-job-name<your-training-job-name>
\ --role-arn<your-execution-role-arn>
\ --algorithm-specification '{ \ "TrainingInputMode": "File", \ "TrainingImage": "<your-ecr-image>
", \ "ContainerEntrypoint": ["/bin/sh
"], \ "ContainerArguments": ["/opt/ml/input/data/<your_channel_name>/custom_entrypoint.sh"]}
' \ --input-data-config '[{ \ "ChannelName":"<your_channel_name>
", \ "DataSource":{ \ "S3DataSource":{ \ "S3DataType":"S3Prefix", \ "S3Uri":"s3://<bucket-name>
/<bucket_prefix>
", \ "S3DataDistributionType":"FullyReplicated"}}}]' \ --output-data-config '{"S3OutputPath": "s3://custom-entrypoint-output-bucket/
"}' \ --resource-config '{"VolumeSizeInGB":10
,"InstanceCount":1
,"InstanceType":"ml.m5.2xlarge
"}' \ --stopping-condition '{"MaxRuntimeInSeconds":180
}'