Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Memilih mode input dan unit penyimpanan

Mode fokus
Memilih mode input dan unit penyimpanan - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Sumber data terbaik untuk pekerjaan pelatihan Anda bergantung pada karakteristik beban kerja seperti ukuran kumpulan data, format file, ukuran rata-rata file, durasi pelatihan, pola baca pemuat data berurutan atau acak, dan seberapa cepat model Anda dapat mengkonsumsi data pelatihan. Praktik terbaik berikut memberikan panduan untuk memulai mode input dan layanan penyimpanan data yang paling sesuai untuk kasus penggunaan Anda.

Diagram alur meringkas praktik terbaik memilih penyimpanan terbaik sebagai sumber data dan mode file input.

Kapan menggunakan Amazon EFS

Jika kumpulan data disimpan di Amazon Elastic File System, Anda mungkin memiliki aplikasi pra-pemrosesan atau anotasi yang menggunakan Amazon EFS untuk penyimpanan. Anda dapat menjalankan pekerjaan pelatihan yang dikonfigurasi dengan saluran data yang mengarah ke sistem file Amazon EFS. Untuk informasi selengkapnya, lihat Mempercepat pelatihan di Amazon SageMaker AI menggunakan sistem file Amazon FSx for Lustre dan Amazon EFS. Jika Anda tidak dapat mencapai kinerja yang lebih baik, periksa opsi pengoptimalan Anda mengikuti panduan kinerja Amazon Elastic File System atau pertimbangkan untuk menggunakan mode input atau penyimpanan data yang berbeda.

Gunakan mode file untuk kumpulan data kecil

Jika kumpulan data disimpan di Amazon Simple Storage Service dan volume keseluruhannya relatif kecil (misalnya, kurang dari 50-100 GB), coba gunakan mode file. Overhead mengunduh dataset 50 GB dapat bervariasi berdasarkan jumlah total file. Misalnya, dibutuhkan sekitar 5 menit jika kumpulan data dibagi menjadi pecahan 100 MB. Apakah overhead startup ini dapat diterima terutama tergantung pada durasi keseluruhan pekerjaan pelatihan Anda, karena fase pelatihan yang lebih lama berarti fase pengunduhan yang lebih kecil secara proporsional.

Serialisasi banyak file kecil

Jika ukuran dataset Anda kecil (kurang dari 50-100 GB), tetapi terdiri dari banyak file kecil (kurang dari 50 MB per file), overhead unduhan mode file bertambah, karena setiap file perlu diunduh satu per satu dari Amazon Simple Storage Service ke volume instans pelatihan. Untuk mengurangi overhead dan waktu traversal data ini secara umum, pertimbangkan untuk membuat serialisasi grup file kecil tersebut ke dalam wadah file yang lebih kecil (seperti 150 MB per file) dengan menggunakan format file, seperti TFRecordfor, for TensorFlow, PyTorch dan RecorDio WebDatasetfor. MXNet

Kapan menggunakan mode file cepat

Untuk kumpulan data yang lebih besar dengan file yang lebih besar (lebih dari 50 MB per file), opsi pertama adalah mencoba mode file cepat, yang lebih mudah digunakan daripada FSx untuk Lustre karena tidak memerlukan pembuatan sistem file, atau menghubungkan ke VPC. Mode file cepat sangat ideal untuk wadah file besar (lebih dari 150 MB), dan mungkin juga cocok dengan file lebih dari 50 MB. Karena mode file cepat menyediakan antarmuka POSIX, ia mendukung pembacaan acak (membaca rentang byte non-sekuensial). Namun, ini bukan kasus penggunaan yang ideal, dan throughput Anda mungkin lebih rendah dibandingkan dengan pembacaan berurutan. Namun, jika Anda memiliki model HTML yang relatif besar dan intensif secara komputasi, mode file cepat mungkin masih dapat memenuhi bandwidth efektif dari pipa pelatihan dan tidak mengakibatkan kemacetan IO. Anda harus bereksperimen dan melihat. Untuk beralih dari mode file ke mode file cepat (dan kembali), cukup tambahkan (atau hapus) input_mode='FastFile' parameter saat menentukan saluran input Anda menggunakan SageMaker Python SDK:

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode = 'FastFile')

Kapan menggunakan Amazon FSx untuk Lustre

Jika dataset Anda terlalu besar untuk mode file, memiliki banyak file kecil yang tidak dapat Anda serialisasi dengan mudah, atau menggunakan pola akses baca acak, FSx untuk Lustre adalah pilihan yang baik untuk dipertimbangkan. Sistem filenya berskala hingga ratusan gigabyte per detik (GB/s) throughput dan jutaan IOPS, yang ideal ketika Anda memiliki banyak file kecil. Namun, perhatikan bahwa mungkin ada masalah cold start karena pemuatan lambat dan overhead pengaturan dan inisialisasi sistem file FSx for Lustre.

Tip

Untuk mempelajari lebih lanjut, lihat Memilih sumber data terbaik untuk pekerjaan SageMaker pelatihan Amazon Anda. Blog AWS machine learning ini lebih lanjut membahas studi kasus dan tolok ukur kinerja sumber data dan mode input.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.