Memilih mode input dan unit penyimpanan

Mode fokus

Memilih mode input dan unit penyimpanan - Amazon SageMaker AI

Kapan menggunakan Amazon EFS Gunakan mode file untuk kumpulan data kecil Serialisasi banyak file kecil Kapan menggunakan mode file cepat Kapan menggunakan Amazon FSx untuk Lustre

Sumber data terbaik untuk pekerjaan pelatihan Anda bergantung pada karakteristik beban kerja seperti ukuran kumpulan data, format file, ukuran rata-rata file, durasi pelatihan, pola baca pemuat data berurutan atau acak, dan seberapa cepat model Anda dapat mengkonsumsi data pelatihan. Praktik terbaik berikut memberikan panduan untuk memulai mode input dan layanan penyimpanan data yang paling sesuai untuk kasus penggunaan Anda.

Diagram alur meringkas praktik terbaik memilih penyimpanan terbaik sebagai sumber data dan mode file input.

Kapan menggunakan Amazon EFS

Jika kumpulan data disimpan di Amazon Elastic File System, Anda mungkin memiliki aplikasi pra-pemrosesan atau anotasi yang menggunakan Amazon EFS untuk penyimpanan. Anda dapat menjalankan pekerjaan pelatihan yang dikonfigurasi dengan saluran data yang mengarah ke sistem file Amazon EFS. Untuk informasi selengkapnya, lihat Mempercepat pelatihan di Amazon SageMaker AI menggunakan sistem file Amazon FSx for Lustre dan Amazon EFS. Jika Anda tidak dapat mencapai kinerja yang lebih baik, periksa opsi pengoptimalan Anda mengikuti panduan kinerja Amazon Elastic File System atau pertimbangkan untuk menggunakan mode input atau penyimpanan data yang berbeda.

Gunakan mode file untuk kumpulan data kecil

Jika kumpulan data disimpan di Amazon Simple Storage Service dan volume keseluruhannya relatif kecil (misalnya, kurang dari 50-100 GB), coba gunakan mode file. Overhead mengunduh dataset 50 GB dapat bervariasi berdasarkan jumlah total file. Misalnya, dibutuhkan sekitar 5 menit jika kumpulan data dibagi menjadi pecahan 100 MB. Apakah overhead startup ini dapat diterima terutama tergantung pada durasi keseluruhan pekerjaan pelatihan Anda, karena fase pelatihan yang lebih lama berarti fase pengunduhan yang lebih kecil secara proporsional.

Serialisasi banyak file kecil

Jika ukuran dataset Anda kecil (kurang dari 50-100 GB), tetapi terdiri dari banyak file kecil (kurang dari 50 MB per file), overhead unduhan mode file bertambah, karena setiap file perlu diunduh satu per satu dari Amazon Simple Storage Service ke volume instans pelatihan. Untuk mengurangi overhead dan waktu traversal data ini secara umum, pertimbangkan untuk membuat serialisasi grup file kecil tersebut ke dalam wadah file yang lebih kecil (seperti 150 MB per file) dengan menggunakan format file, seperti TFRecordfor, for TensorFlow, PyTorch dan RecorDio WebDatasetfor. MXNet

Kapan menggunakan mode file cepat

Untuk kumpulan data yang lebih besar dengan file yang lebih besar (lebih dari 50 MB per file), opsi pertama adalah mencoba mode file cepat, yang lebih mudah digunakan daripada FSx untuk Lustre karena tidak memerlukan pembuatan sistem file, atau menghubungkan ke VPC. Mode file cepat sangat ideal untuk wadah file besar (lebih dari 150 MB), dan mungkin juga cocok dengan file lebih dari 50 MB. Karena mode file cepat menyediakan antarmuka POSIX, ia mendukung pembacaan acak (membaca rentang byte non-sekuensial). Namun, ini bukan kasus penggunaan yang ideal, dan throughput Anda mungkin lebih rendah dibandingkan dengan pembacaan berurutan. Namun, jika Anda memiliki model HTML yang relatif besar dan intensif secara komputasi, mode file cepat mungkin masih dapat memenuhi bandwidth efektif dari pipa pelatihan dan tidak mengakibatkan kemacetan IO. Anda harus bereksperimen dan melihat. Untuk beralih dari mode file ke mode file cepat (dan kembali), cukup tambahkan (atau hapus) input_mode='FastFile' parameter saat menentukan saluran input Anda menggunakan SageMaker Python SDK:


sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER,  input_mode = 'FastFile')

Kapan menggunakan Amazon FSx untuk Lustre

Jika dataset Anda terlalu besar untuk mode file, memiliki banyak file kecil yang tidak dapat Anda serialisasi dengan mudah, atau menggunakan pola akses baca acak, FSx untuk Lustre adalah pilihan yang baik untuk dipertimbangkan. Sistem filenya berskala hingga ratusan gigabyte per detik (GB/s) throughput dan jutaan IOPS, yang ideal ketika Anda memiliki banyak file kecil. Namun, perhatikan bahwa mungkin ada masalah cold start karena pemuatan lambat dan overhead pengaturan dan inisialisasi sistem file FSx for Lustre.

Tip

Untuk mempelajari lebih lanjut, lihat Memilih sumber data terbaik untuk pekerjaan SageMaker pelatihan Amazon Anda. Blog AWS machine learning ini lebih lanjut membahas studi kasus dan tolok ukur kinerja sumber data dan mode input.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Konfigurasikan saluran input data untuk menggunakan Amazon FSx untuk Lustre

Gunakan kontrol akses berbasis atribut (ABAC) untuk pelatihan multi-tenancy

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Memilih mode input dan unit penyimpanan

Kapan menggunakan Amazon EFS

Gunakan mode file untuk kumpulan data kecil

Serialisasi banyak file kecil

Kapan menggunakan mode file cepat

Kapan menggunakan Amazon FSx untuk Lustre

Tip

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?

Diagram alur meringkas praktik terbaik memilih penyimpanan terbaik sebagai sumber data dan mode file input.