Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sumber data terbaik untuk pekerjaan pelatihan Anda bergantung pada karakteristik beban kerja seperti ukuran kumpulan data, format file, ukuran rata-rata file, durasi pelatihan, pola baca pemuat data berurutan atau acak, dan seberapa cepat model Anda dapat mengkonsumsi data pelatihan. Praktik terbaik berikut memberikan panduan untuk memulai mode input dan layanan penyimpanan data yang paling sesuai untuk kasus penggunaan Anda.

Kapan menggunakan Amazon EFS
Jika kumpulan data disimpan di Amazon Elastic File System, Anda mungkin memiliki aplikasi pra-pemrosesan atau anotasi yang menggunakan Amazon EFS untuk penyimpanan. Anda dapat menjalankan pekerjaan pelatihan yang dikonfigurasi dengan saluran data yang mengarah ke sistem file Amazon EFS. Untuk informasi selengkapnya, lihat Mempercepat pelatihan di Amazon SageMaker AI menggunakan sistem file Amazon FSx for Lustre dan Amazon EFS
Gunakan mode file untuk kumpulan data kecil
Jika kumpulan data disimpan di Amazon Simple Storage Service dan volume keseluruhannya relatif kecil (misalnya, kurang dari 50-100 GB), coba gunakan mode file. Overhead mengunduh dataset 50 GB dapat bervariasi berdasarkan jumlah total file. Misalnya, dibutuhkan sekitar 5 menit jika kumpulan data dibagi menjadi pecahan 100 MB. Apakah overhead startup ini dapat diterima terutama tergantung pada durasi keseluruhan pekerjaan pelatihan Anda, karena fase pelatihan yang lebih lama berarti fase pengunduhan yang lebih kecil secara proporsional.
Serialisasi banyak file kecil
Jika ukuran dataset Anda kecil (kurang dari 50-100 GB), tetapi terdiri dari banyak file kecil (kurang dari 50 MB per file), overhead unduhan mode file bertambah, karena setiap file perlu diunduh satu per satu dari Amazon Simple Storage Service ke volume instans pelatihan. Untuk mengurangi overhead dan waktu traversal data ini secara umum, pertimbangkan untuk membuat serialisasi grup file kecil tersebut ke dalam wadah file yang lebih kecil (seperti 150 MB per file) dengan menggunakan format file, seperti TFRecord
Kapan menggunakan mode file cepat
Untuk kumpulan data yang lebih besar dengan file yang lebih besar (lebih dari 50 MB per file), opsi pertama adalah mencoba mode file cepat, yang lebih mudah digunakan daripada FSx untuk Lustre karena tidak memerlukan pembuatan sistem file, atau menghubungkan ke VPC. Mode file cepat sangat ideal untuk wadah file besar (lebih dari 150 MB), dan mungkin juga cocok dengan file lebih dari 50 MB. Karena mode file cepat menyediakan antarmuka POSIX, ia mendukung pembacaan acak (membaca rentang byte non-sekuensial). Namun, ini bukan kasus penggunaan yang ideal, dan throughput Anda mungkin lebih rendah dibandingkan dengan pembacaan berurutan. Namun, jika Anda memiliki model HTML yang relatif besar dan intensif secara komputasi, mode file cepat mungkin masih dapat memenuhi bandwidth efektif dari pipa pelatihan dan tidak mengakibatkan kemacetan IO. Anda harus bereksperimen dan melihat. Untuk beralih dari mode file ke mode file cepat (dan kembali), cukup tambahkan (atau hapus) input_mode='FastFile'
parameter saat menentukan saluran input Anda menggunakan SageMaker Python SDK:
sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode = 'FastFile')
Kapan menggunakan Amazon FSx untuk Lustre
Jika dataset Anda terlalu besar untuk mode file, memiliki banyak file kecil yang tidak dapat Anda serialisasi dengan mudah, atau menggunakan pola akses baca acak, FSx untuk Lustre adalah pilihan yang baik untuk dipertimbangkan. Sistem filenya berskala hingga ratusan gigabyte per detik (GB/s) throughput dan jutaan IOPS, yang ideal ketika Anda memiliki banyak file kecil. Namun, perhatikan bahwa mungkin ada masalah cold start karena pemuatan lambat dan overhead pengaturan dan inisialisasi sistem file FSx for Lustre.
Tip
Untuk mempelajari lebih lanjut, lihat Memilih sumber data terbaik untuk pekerjaan SageMaker pelatihan Amazon Anda