Aktifkan pos pemeriksaan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Aktifkan pos pemeriksaan

Setelah mengaktifkan pos pemeriksaan, SageMaker simpan pos pemeriksaan ke Amazon S3 dan sinkronkan tugas latihan Anda dengan bucket checkpoint S3. Anda dapat menggunakan bucket tujuan umum S3 atau direktori S3 untuk bucket S3 pos pemeriksaan Anda.

Diagram arsitektur penulisan pos pemeriksaan selama pelatihan.

Contoh berikut menunjukkan cara mengkonfigurasi jalur pos pemeriksaan saat Anda membuat estimator. SageMaker Untuk mengaktifkan checkpointing, tambahkan checkpoint_local_path parameter checkpoint_s3_uri dan ke estimator Anda.

Contoh template berikut menunjukkan cara membuat SageMaker estimator generik dan mengaktifkan checkpointing. Anda dapat menggunakan template ini untuk algoritma yang didukung dengan menentukan parameter. image_uri Untuk menemukan image Docker URIs untuk algoritma dengan checkpointing yang didukung oleh SageMaker, lihat Docker Registry Paths and Example Code. Anda juga dapat mengganti estimator dan Estimator dengan kelas induk SageMaker estimator kerangka kerja lain dan kelas estimator, sepertiTensorFlow,, dan. PyTorch MXNet HuggingFace XGBoost

import sagemaker from sagemaker.estimator import Estimator bucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator = Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )

Dua parameter berikut menentukan jalur untuk checkpointing:

  • checkpoint_local_path— Tentukan jalur lokal tempat model menyimpan pos pemeriksaan secara berkala dalam wadah pelatihan. Jalur default diatur ke'/opt/ml/checkpoints'. Jika Anda menggunakan kerangka kerja lain atau membawa wadah pelatihan Anda sendiri, pastikan bahwa konfigurasi pos pemeriksaan skrip pelatihan Anda menentukan jalur ke. '/opt/ml/checkpoints'

    catatan

    Sebaiknya tentukan jalur lokal '/opt/ml/checkpoints' agar konsisten dengan pengaturan SageMaker pos pemeriksaan default. Jika Anda lebih suka menentukan jalur lokal Anda sendiri, pastikan Anda mencocokkan jalur penyimpanan pos pemeriksaan dalam skrip pelatihan Anda dan checkpoint_local_path parameter SageMaker estimator.

  • checkpoint_s3_uri- Bucket URI ke S3 tempat pos pemeriksaan disimpan secara real time. Anda dapat menentukan bucket direktori tujuan umum S3 atau S3 untuk menyimpan pos pemeriksaan Anda. Untuk informasi selengkapnya tentang bucket direktori S3, lihat Bucket direktori di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

Untuk menemukan daftar lengkap parameter SageMaker estimator, lihat Estimator API dalam dokumentasi Amazon Python SageMaker . SDK