Menyiapkan pekerjaan pelatihan untuk mengakses kumpulan data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyiapkan pekerjaan pelatihan untuk mengakses kumpulan data

Saat membuat pekerjaan pelatihan, Anda menentukan lokasi kumpulan data pelatihan dalam penyimpanan data pilihan Anda dan mode input data untuk pekerjaan itu. Amazon SageMaker mendukung Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon), dan EFS Amazon FSx untuk Lustre. Anda dapat memilih salah satu mode input untuk mengalirkan kumpulan data secara real time atau mengunduh seluruh kumpulan data di awal pekerjaan pelatihan.

catatan

Dataset Anda harus berada di tempat yang Wilayah AWS sama dengan pekerjaan pelatihan.

SageMaker mode input dan opsi penyimpanan AWS cloud

Bagian ini memberikan gambaran umum tentang mode input file yang didukung oleh SageMaker untuk data yang disimpan di Amazon EFS dan Amazon FSx untuk Lustre.

Ringkasan mode SageMaker input untuk Amazon S3 dan sistem file di Amazon dan EFS Amazon FSx untuk Lustre.
  • Mode file menyajikan tampilan sistem file dari kumpulan data ke wadah pelatihan. Ini adalah mode input default jika Anda tidak secara eksplisit menentukan salah satu dari dua opsi lainnya. Jika Anda menggunakan mode file, SageMaker unduh data pelatihan dari lokasi penyimpanan ke direktori lokal di wadah Docker. Pelatihan dimulai setelah kumpulan data lengkap diunduh. Dalam mode file, instance pelatihan harus memiliki ruang penyimpanan yang cukup agar sesuai dengan seluruh kumpulan data. Kecepatan unduh mode file tergantung pada ukuran kumpulan data, ukuran rata-rata file, dan jumlah file. Anda dapat mengonfigurasi kumpulan data untuk mode file dengan menyediakan awalan Amazon S3, file manifes, atau file manifes tambahan. Anda harus menggunakan awalan S3 ketika semua file dataset Anda berada dalam awalan S3 umum. Mode file kompatibel dengan mode SageMaker lokal (memulai wadah SageMaker pelatihan secara interaktif dalam hitungan detik). Untuk pelatihan terdistribusi, Anda dapat memisahkan kumpulan data di beberapa instance dengan opsi. ShardedByS3Key

  • Mode file cepat menyediakan akses sistem file ke sumber data Amazon S3 sambil memanfaatkan keunggulan kinerja mode pipa. Pada awal pelatihan, mode file cepat mengidentifikasi file data tetapi tidak mengunduhnya. Pelatihan dapat dimulai tanpa menunggu seluruh kumpulan data diunduh. Ini berarti bahwa startup pelatihan membutuhkan waktu lebih sedikit ketika ada lebih sedikit file di awalan Amazon S3 yang disediakan.

    Berbeda dengan mode pipa, mode file cepat bekerja dengan akses acak ke data. Namun, ini berfungsi paling baik ketika data dibaca secara berurutan. Mode file cepat tidak mendukung file manifes tambahan.

    Mode file cepat mengekspos objek S3 menggunakan antarmuka sistem file yang POSIX sesuai, seolah-olah file tersedia di disk lokal instance pelatihan Anda. Ini mengalirkan konten S3 sesuai permintaan karena skrip pelatihan Anda mengkonsumsi data. Ini berarti bahwa kumpulan data Anda tidak perlu lagi masuk ke dalam ruang penyimpanan instans pelatihan secara keseluruhan, dan Anda tidak perlu menunggu dataset diunduh ke instans pelatihan sebelum pelatihan dimulai. File cepat saat ini hanya mendukung awalan S3 (tidak mendukung manifes dan augmented manifest). Mode file cepat kompatibel dengan mode SageMaker lokal.

  • Mode pipa mengalirkan data langsung dari sumber data Amazon S3. Streaming dapat memberikan waktu mulai yang lebih cepat dan throughput yang lebih baik daripada mode file.

    Saat melakukan streaming data secara langsung, Anda dapat mengurangi ukuran EBS volume Amazon yang digunakan oleh instans pelatihan. Mode pipa hanya membutuhkan ruang disk yang cukup untuk menyimpan artefak model akhir.

    Ini adalah mode streaming lain yang sebagian besar digantikan oleh mode file yang lebih baru dan simpler-to-use cepat. Dalam mode pipa, data diambil sebelumnya dari Amazon S3 pada konkurensi dan throughput tinggi, dan dialirkan ke pipa bernama, yang juga dikenal sebagai First-In-First-Out pipa () karena perilakunya. FIFO Setiap pipa hanya dapat dibaca dengan satu proses. Ekstensi SageMaker khusus untuk mengintegrasikan mode Pipe dengan TensorFlow mudah ke pemuat TensorFlow data asli untuk streaming teks,TFRecords, atau format file RecorDio. Mode pipa juga mendukung sharding dan shuffling data yang dikelola.

  • Amazon S3 Express One Zone adalah kelas penyimpanan Availability Zone tunggal berkinerja tinggi yang dapat memberikan akses data milidetik satu digit yang konsisten untuk aplikasi yang paling sensitif terhadap latensi termasuk pelatihan model. SageMaker Amazon S3 Express One Zone memungkinkan pelanggan untuk mengumpulkan penyimpanan objek mereka dan menghitung sumber daya dalam satu AWS Availability Zone, mengoptimalkan kinerja komputasi dan biaya dengan peningkatan kecepatan pemrosesan data. Untuk lebih meningkatkan kecepatan akses dan mendukung ratusan ribu permintaan per detik, data disimpan dalam jenis bucket baru, bucket direktori Amazon S3.

    SageMaker pelatihan model mendukung bucket direktori Amazon S3 Express One Zone berkinerja tinggi sebagai lokasi input data untuk mode file, mode file cepat, dan mode pipa. Untuk menggunakan Amazon S3 Express One Zone, masukkan lokasi bucket direktori Amazon S3 Express One Zone, bukan bucket Amazon S3. Berikan IAM peran tersebut dengan kebijakan kontrol akses dan izin yang diperlukan. ARN Lihat AmazonSageMakerFullAccesspolicyuntuk detailnya. Anda hanya dapat mengenkripsi data SageMaker keluaran dalam bucket direktori dengan enkripsi sisi server dengan kunci terkelola Amazon S3 (-S3). SSE Enkripsi sisi server dengan AWS KMS kunci (SSE-KMS) saat ini tidak didukung untuk menyimpan data SageMaker keluaran dalam bucket direktori. Untuk informasi selengkapnya, lihat Amazon S3 Express One Zone.

  • Amazon FSx untuk Lustre — FSx untuk Lustre dapat menskalakan hingga ratusan gigabyte throughput dan jutaan dengan pengambilan file latensi rendah. IOPS Saat memulai pekerjaan pelatihan, SageMaker pasang sistem file FSx for Lustre ke sistem file instance pelatihan, lalu mulai skrip pelatihan Anda. Pemasangan itu sendiri adalah operasi yang relatif cepat yang tidak bergantung pada ukuran kumpulan data yang disimpan FSx untuk Lustre.

    FSxUntuk mengakses Lustre, tugas pelatihan Anda harus terhubung ke Amazon Virtual Private Cloud (VPC), yang memerlukan DevOps penyiapan dan keterlibatan. Untuk menghindari biaya transfer data, sistem file menggunakan Availability Zone tunggal, dan Anda perlu menentukan VPC subnet yang memetakan ke ID Availability Zone ini saat menjalankan tugas pelatihan.

  • Amazon EFS — Untuk menggunakan Amazon EFS sebagai sumber data, data harus sudah berada di Amazon EFS sebelum pelatihan. SageMaker memasang sistem EFS file Amazon yang ditentukan ke instance pelatihan, lalu mulai skrip pelatihan Anda. Pekerjaan pelatihan Anda harus terhubung ke a VPC untuk mengakses AmazonEFS.

    Tip

    Untuk mempelajari lebih lanjut tentang cara menentukan VPC konfigurasi Anda ke SageMaker estimator, lihat Menggunakan Sistem File sebagai Input Pelatihan dalam dokumentasi PythonSageMaker. SDK