Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menyesuaikan sinkronisasi untuk File S3
File S3 memungkinkan Anda mengontrol bagaimana data mengalir antara sistem file Anda dan bucket S3 tertaut melalui konfigurasi sinkronisasi. Pengaturan default menyeimbangkan latensi dan biaya untuk sebagian besar beban kerja, tetapi Anda dapat menyetelnya agar sesuai dengan pola akses Anda. Mengimpor lebih banyak data di muka mengurangi latensi baca dengan biaya penyimpanan dan biaya penulisan yang lebih tinggi. Mengimpor lebih sedikit data membuat biaya penyimpanan tetap rendah tetapi berarti lebih banyak pembacaan disajikan dari S3 dengan latensi yang lebih tinggi. Setiap konfigurasi memiliki dua komponen: aturan data impor, yang mengontrol data apa yang disalin ke sistem file dan kapan, dan aturan data kedaluwarsa, yang mengontrol berapa lama data yang tidak digunakan tetap pada sistem file. Anda dapat memperbarui aturan ini menggunakan AWS Management Console atau PutSynchronizationConfiguration API.
Impor aturan data
Aturan data impor mengontrol cara data disalin dari bucket ke sistem file. Anda dapat memiliki maksimum 10 aturan data impor per sistem file. Setiap aturan data impor memiliki parameter berikut:
awalan - Awalan S3 yang berlaku aturan. Tentukan string kosong (“”) untuk seluruh bucket (lingkup sistem file) atau awalan tertentu (misalnya, “data/ml/”) dalam sistem file. Awalan harus diakhiri dengan garis miring (/), kecuali menentukan seluruh bucket dengan “”. Anda harus menyertakan persis satu aturan impor untuk direktori root. Default: “” (seluruh bucket atau ruang lingkup sistem file).
trigger - Kapan mengimpor data: ON_DIRECTORY_FIRST_ACCESS atau ON_FILE_ACCESS. Default: ON_DIRECTORY_FIRST_ACCESS.
ON_DIRECTORY_FIRST_ACCESS - Data file diimpor saat Anda pertama kali mengakses direktori. Misalnya, ketika Anda pertama kali mengakses direktori dengan mencantumkan isinya atau membuka file di dalamnya, data diimpor untuk semua file turunan langsung di direktori yang lebih kecil dari sizeLessThan ambang batas. Opsi ini berguna untuk beban kerja yang membutuhkan latensi rendah saat pertama kali mengakses file.
ON_FILE_ACCESS - Data file diimpor hanya ketika file dibaca untuk pertama kalinya. Opsi ini meminimalkan data yang diimpor dengan biaya latensi yang lebih tinggi pada pembacaan pertama.
sizeLessThan— Ukuran file maksimum (dalam byte) untuk mengimpor secara otomatis. Sementara File S3 mengimpor metadata untuk semua file, itu hanya mengimpor data untuk file yang lebih kecil dari ambang batas ini. Minimum: 0 byte (tidak ada data yang diimpor, metadata akan tetap diimpor). Maksimum: 52.673.613.135.872 byte (48 TiB). Default: 131.072 byte (128 KB).
Perilaku pencocokan awalan
Ketika beberapa aturan data impor cocok dengan file, File S3 menerapkan aturan dengan awalan paling spesifik. Misalnya, anggap Anda memiliki tiga aturan:
Aturan 1: awalan = “” (seluruh ember), = 64 KB, pemicu sizeLessThan = ON_FILE_ACCESS
Aturan 2: awalan = “hot/”, = 1 MB, pemicu sizeLessThan = ON_DIRECTORY_FIRST_ACCESS
Aturan 3: awalan = “panas/LargeData/”, = 256 KB, pemicu = sizeLessThan ON_DIRECTORY_FIRST_ACCESS
Untuk file hot/largeData/data.txt, S3 Files applies Rule 3. For a file at hot/data.txt, S3 Files applies Rule 2. For a file at cold/data di.txt, File S3 menerapkan Aturan 1 karena tidak ada aturan khusus untuk awalan cold/.
Aturan data kedaluwarsa
Aturan data kedaluwarsa mengontrol saat data yang tidak digunakan dihapus dari sistem file untuk mengoptimalkan biaya penyimpanan. File S3 menghapus data setelah tidak dibaca selama durasi tertentu dan perubahannya telah disinkronkan ke bucket S3. Setiap kali file dibaca, timer kedaluwarsa akan disetel ulang, memperpanjang waktu data tetap dalam sistem file. Anda dapat menentukan parameter berikut dalam aturan data kedaluwarsa:
daysAfterLastAkses — Jumlah hari setelah pembacaan terakhir ketika data dihapus dari sistem file. Minimal: 1 hari. Maksimal: 365 hari. Default: 30 hari.
Jika Anda memiliki beban kerja yang berjalan lama yang sering mengakses data yang sama, pertimbangkan periode kedaluwarsa yang lebih lama (30-90 hari). Untuk data sementara, pertimbangkan periode yang lebih pendek (1—7 hari).
Contoh konfigurasi
Berbagi file tujuan umum (konfigurasi default) - Tim pengembang dan ilmuwan data memasang sistem file S3 untuk berbagi kode, file konfigurasi, dan kumpulan data kecil. Sebagian besar file di bawah 128 KB dan dibaca berulang kali sepanjang hari. Konfigurasi default berfungsi dengan baik untuk beban kerja ini: ON_DIRECTORY_FIRST_ACCESS mengimpor metadata dan data file kecil ketika file apa pun dalam direktori pertama kali diakses, yang berfungsi dengan baik ketika file di direktori yang sama cenderung diakses bersama, seperti file sumber dalam proyek atau file konfigurasi dalam penerapan. Akses selanjutnya oleh pengguna mana pun cepat. Ketika pengguna membuka file besar seperti arsip log, File S3 secara otomatis mengalirkannya langsung dari S3 untuk throughput tinggi. Jendela kedaluwarsa 30 hari menyimpan file yang digunakan secara aktif pada sistem file tanpa pembersihan manual.
Pelatihan ML dengan pembacaan berulang — Pekerjaan pelatihan membaca ribuan file kecil (<10 MB) berulang kali di beberapa zaman. Untuk meminimalkan latensi, tetapkan sizeLessThan ambang batas tinggi (misalnya, 10 MB) dengan ON_DIRECTORY_FIRST_ACCESS sehingga data file dimuat sebelumnya saat skrip pelatihan pertama mencantumkan setiap direktori. Tetapkan kedaluwarsa singkat (misalnya, 3 hari) sehingga data dihapus dari sistem file segera setelah pekerjaan pelatihan selesai.
Beban kerja agen dengan penemuan file yang luas — Agen AI mengeksplorasi repositori besar dokumen, kode, atau file basis pengetahuan untuk menjawab pertanyaan, membaca banyak file kecil sekali saat mencari konteks yang relevan. Setel sizeLessThan ke 0 sehingga tidak ada data yang diimpor ke sistem file. Agen dapat menelusuri pohon direktori lengkap dengan latensi rendah untuk menemukan file, sementara setiap file yang dibaca disajikan langsung dari S3. Ini membuat biaya rendah untuk beban kerja yang menyentuh banyak file secara tidak terduga tetapi jarang mengunjungi kembali file yang sama, dan menskalakan secara alami saat Anda menambahkan lebih banyak agen yang membaca secara paralel.
Awalan panas dan dingin — Sistem file berisi file konfigurasi yang sering diakses di bawah config/ dan data arsip yang jarang diakses di bawah. archive/ Buat dua aturan impor: satu untuk config/ dengan tinggi sizeLessThan dan ON_DIRECTORY_FIRST_ACCESS, dan satu untuk dengan set ke 0 dan ON_FILE_ACCESS. archive/ sizeLessThan Ini membuat file konfigurasi pada sistem file untuk akses cepat sambil menghindari biaya penyimpanan untuk data arsip yang jarang dibaca.