Pos pemeriksaan di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pos pemeriksaan di Amazon SageMaker

Gunakan pos pemeriksaan di Amazon SageMaker untuk menyimpan status model pembelajaran mesin (ML) selama pelatihan. Checkpoint adalah snapshot dari model dan dapat dikonfigurasi oleh fungsi callback kerangka kerja HTML. Anda dapat menggunakan pos pemeriksaan yang disimpan untuk memulai kembali pekerjaan pelatihan dari pos pemeriksaan terakhir yang disimpan.

Menggunakan pos pemeriksaan, Anda dapat melakukan hal berikut:

  • Simpan snapshot model Anda di bawah pelatihan karena gangguan yang tidak terduga pada pekerjaan atau instans pelatihan.

  • Lanjutkan pelatihan model di masa depan dari pos pemeriksaan.

  • Analisis model pada tahap menengah pelatihan.

  • Gunakan pos pemeriksaan dengan S3 Express One Zone untuk meningkatkan kecepatan akses.

  • Gunakan pos pemeriksaan dengan pelatihan spot SageMaker terkelola untuk menghemat biaya pelatihan.

Mekanisme SageMaker pelatihan menggunakan wadah pelatihan di EC2 instans Amazon, dan file pos pemeriksaan disimpan di bawah direktori lokal kontainer (defaultnya adalah/opt/ml/checkpoints). SageMaker menyediakan fungsionalitas untuk menyalin pos pemeriksaan dari jalur lokal ke Amazon S3 dan secara otomatis menyinkronkan pos pemeriksaan di direktori itu dengan S3. Pos pemeriksaan yang ada di S3 ditulis ke SageMaker wadah di awal pekerjaan, memungkinkan pekerjaan untuk dilanjutkan dari pos pemeriksaan. Pos pemeriksaan yang ditambahkan ke folder S3 setelah pekerjaan dimulai tidak disalin ke wadah pelatihan. SageMaker juga menulis pos pemeriksaan baru dari wadah ke S3 selama pelatihan. Jika pos pemeriksaan dihapus dalam SageMaker wadah, itu juga akan dihapus di folder S3.

Anda dapat menggunakan pos pemeriksaan di Amazon SageMaker dengan kelas penyimpanan Amazon S3 Express One Zone (S3 Express One Zone) untuk akses lebih cepat ke pos pemeriksaan. Saat mengaktifkan checkpointing dan menentukan S3 URI untuk tujuan penyimpanan pos pemeriksaan, Anda dapat menyediakan S3 URI untuk folder baik di bucket tujuan umum S3 atau bucket direktori S3. Bucket direktori S3 yang terintegrasi hanya SageMaker dapat dienkripsi dengan enkripsi sisi server dengan kunci terkelola Amazon S3 (-S3). SSE Enkripsi sisi server dengan AWS KMS kunci (SSE-KMS) saat ini tidak didukung. Untuk informasi selengkapnya tentang bucket direktori S3 Express One Zone dan S3, lihat Apa itu S3 Express One Zone.

Jika Anda menggunakan pos pemeriksaan dengan pelatihan spot SageMaker terkelola, SageMaker mengelola checkpointing pelatihan model Anda pada instance spot dan melanjutkan pekerjaan pelatihan pada instance spot berikutnya. Dengan pelatihan spot SageMaker terkelola, Anda dapat secara signifikan mengurangi waktu yang dapat ditagih untuk melatih model ML. Untuk informasi selengkapnya, lihat Pelatihan Spot Terkelola di Amazon SageMaker.

Pos pemeriksaan untuk kerangka kerja dan algoritme di SageMaker

Gunakan pos pemeriksaan untuk menyimpan snapshot model ML yang dibangun di atas kerangka kerja pilihan Anda di dalamnya. SageMaker

SageMaker kerangka kerja dan algoritme yang mendukung checkpointing

SageMaker mendukung checkpointing untuk AWS Deep Learning Containers dan subset algoritma bawaan tanpa memerlukan perubahan skrip pelatihan. SageMaker menyimpan pos pemeriksaan ke jalur lokal default '/opt/ml/checkpoints' dan menyalinnya ke Amazon S3.

  • Deep Learning Containers: TensorFlowPyTorch, MXNet,, dan HuggingFace

    catatan

    Jika Anda menggunakan estimator HuggingFace kerangka kerja, Anda perlu menentukan jalur keluaran pos pemeriksaan melalui hyperparameters. Untuk informasi selengkapnya, lihat Menjalankan pelatihan SageMaker di Amazon dalam HuggingFacedokumentasi.

  • Algoritma bawaan: Klasifikasi Gambar, Deteksi Objek, Segmentasi Semantik, dan XGBoost(0,90-1 atau lebih baru)

    catatan

    Jika Anda menggunakan XGBoost algoritme dalam mode kerangka kerja (mode skrip), Anda perlu membawa skrip XGBoost pelatihan dengan pos pemeriksaan yang dikonfigurasi secara manual. Untuk informasi selengkapnya tentang metode XGBoost pelatihan untuk menyimpan snapshot model, lihat Pelatihan XGBoost dalam dokumentasi XGBoostSDKPython.

Jika algoritme pra-bangun yang tidak mendukung pos pemeriksaan digunakan dalam pekerjaan pelatihan tempat yang dikelola, SageMaker tidak memungkinkan waktu tunggu maksimum lebih dari satu jam untuk pekerjaan tersebut untuk membatasi waktu pelatihan yang terbuang dari interupsi.

Untuk wadah pelatihan khusus dan kerangka kerja lainnya

Jika Anda menggunakan wadah pelatihan, skrip pelatihan, atau kerangka kerja lain yang tidak tercantum di bagian sebelumnya, Anda harus mengatur skrip pelatihan dengan benar menggunakan panggilan balik atau pelatihan APIs untuk menyimpan pos pemeriksaan ke jalur lokal ('/opt/ml/checkpoints') dan memuat dari jalur lokal di skrip pelatihan Anda. SageMaker estimator dapat disinkronkan dengan jalur lokal dan menyimpan pos pemeriksaan ke Amazon S3.

Pertimbangan untuk pos pemeriksaan

Pertimbangkan hal berikut saat menggunakan pos pemeriksaan di SageMaker.

  • Untuk menghindari penimpaan dalam pelatihan terdistribusi dengan beberapa instance, Anda harus mengonfigurasi nama dan jalur file pos pemeriksaan secara manual dalam skrip pelatihan Anda. Konfigurasi SageMaker pos pemeriksaan tingkat tinggi menentukan satu lokasi Amazon S3 tanpa sufiks atau awalan tambahan untuk menandai pos pemeriksaan dari beberapa instance.

  • SageMaker Python SDK tidak mendukung konfigurasi tingkat tinggi untuk frekuensi checkpointing. Untuk mengontrol frekuensi checkpointing, ubah skrip latihan Anda menggunakan fungsi penyimpanan model kerangka kerja atau callback pos pemeriksaan.

  • Jika Anda menggunakan SageMaker pos pemeriksaan dengan SageMaker Debugger dan SageMaker didistribusikan serta menghadapi masalah, lihat halaman berikut untuk pemecahan masalah dan pertimbangan.