Gunakan Pelatihan Spot Terkelola di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan Pelatihan Spot Terkelola di Amazon SageMaker

Amazon SageMaker memudahkan untuk melatih model pembelajaran mesin menggunakan instans Amazon EC2 Spot terkelola. Pelatihan spot terkelola dapat mengoptimalkan biaya model pelatihan hingga 90% dibandingkan instans sesuai permintaan. SageMaker mengelola interupsi Spot atas nama Anda.

Pelatihan Spot Terkelola menggunakan instans Spot Amazon EC2 untuk menjalankan pekerjaan pelatihan, bukan instans sesuai permintaan. Anda dapat menentukan lowongan pelatihan mana yang menggunakan instans spot dan kondisi penghentian yang menentukan berapa lama SageMaker menunggu pekerjaan dijalankan menggunakan instans Amazon EC2 Spot. Metrik dan log yang dihasilkan selama pelatihan berjalan tersedia di CloudWatch.

Penyetelan model SageMaker otomatis Amazon, juga dikenal sebagai tuning hyperparameter, dapat menggunakan pelatihan spot terkelola. Untuk informasi lebih lanjut tentang penyetelan model otomatis, lihatLakukan penyetelan model otomatis dengan SageMaker.

Instans spot dapat terganggu, menyebabkan pekerjaan membutuhkan waktu lebih lama untuk memulai atau menyelesaikan. Anda dapat mengonfigurasi pekerjaan pelatihan spot terkelola untuk menggunakan pos pemeriksaan. SageMaker menyalin data pos pemeriksaan dari jalur lokal ke Amazon S3. Saat pekerjaan dimulai ulang, SageMaker salin data dari Amazon S3 kembali ke jalur lokal. Pekerjaan pelatihan kemudian dapat dilanjutkan dari pos pemeriksaan terakhir alih-alih memulai kembali. Untuk informasi selengkapnya tentang pos pemeriksaan, lihat. Gunakan pos pemeriksaan di Amazon SageMaker

catatan

Kecuali pekerjaan pelatihan Anda akan selesai dengan cepat, kami sarankan Anda menggunakan pos pemeriksaan dengan pelatihan spot terkelola. SageMaker algoritma bawaan dan algoritme pasar yang tidak memiliki pos pemeriksaan saat ini dibatasi hingga 3600 detik (60 menit). MaxWaitTimeInSeconds

Menggunakan Pelatihan Spot Terkelola

Untuk menggunakan pelatihan spot terkelola, buat pekerjaan pelatihan. Setel EnableManagedSpotTraining ke True dan tentukanMaxWaitTimeInSeconds. MaxWaitTimeInSecondsharus lebih besar dariMaxRuntimeInSeconds. Untuk informasi selengkapnya tentang membuat pekerjaan pelatihan, lihat DescribeTrainingJob.

Anda dapat menghitung penghematan dari menggunakan pelatihan spot terkelola menggunakan rumus(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Misalnya, jika BillableTimeInSeconds 100 dan TrainingTimeInSeconds 500, ini berarti bahwa pekerjaan pelatihan Anda berjalan selama 500 detik, tetapi Anda ditagih hanya 100 detik. Tabungan Anda adalah (1 - (100/500)) * 100 = 80%.

Untuk mempelajari cara menjalankan pekerjaan pelatihan di instans SageMaker spot Amazon dan cara kerja pelatihan spot terkelola serta mengurangi waktu yang dapat ditagih, lihat contoh buku catatan berikut:

Siklus Hidup Pelatihan Spot Terkelola

Anda dapat memantau pekerjaan pelatihan menggunakan TrainingJobStatus dan SecondaryStatus dikembalikan oleh DescribeTrainingJob. Daftar di bawah ini menunjukkan bagaimana TrainingJobStatus dan SecondaryStatus nilai berubah tergantung pada skenario pelatihan:

  • Instans spot diperoleh tanpa gangguan selama pelatihan

    1. InProgress: StartingDownloadingTrainingUploading

  • Instance spot terputus sekali. Kemudian, cukup banyak contoh spot diperoleh untuk menyelesaikan pekerjaan pelatihan.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • Instance spot terputus dua kali dan MaxWaitTimeInSeconds terlampaui.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • Instans spot tidak pernah diluncurkan.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded