Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Pelatihan Iteratif ## Ikhtisar Pelatihan berulang adalah proses menyempurnakan model berulang kali melalui beberapa siklus pelatihan di berbagai metode pelatihan — melatih, mengevaluasi, menganalisis kesalahan, menyesuaikan data/objectives/hyperparameters — dengan setiap putaran dimulai dari pos pemeriksaan sebelumnya. Pendekatan ini memungkinkan Anda untuk secara sistematis menargetkan mode kegagalan model, menggabungkan contoh yang dikuratori untuk mengatasi kelemahan tertentu, dan beradaptasi dengan perubahan persyaratan dari waktu ke waktu. **Manfaat dibandingkan pelatihan single-pass:** + **Peningkatan yang ditargetkan**: Mengatasi pola kegagalan spesifik yang ditemukan melalui evaluasi + **Penyempurnaan adaptif**: Menanggapi pergeseran distribusi atau persyaratan produk yang berkembang + **Mitigasi risiko**: Validasi perbaikan secara bertahap daripada berkomitmen pada satu kali pelatihan jangka panjang + **Efisiensi data**: Fokuskan upaya pengumpulan data pada area di mana model berkinerja buruk + **Pelatihan Kurikulum**: Beberapa putaran pelatihan dengan kualitas data yang semakin tinggi ## Cara kerjanya ### Lokasi dan akses pos pemeriksaan Setelah setiap pekerjaan pelatihan selesai, file manifes dihasilkan di lokasi keluaran yang ditentukan oleh `output_path` parameter dalam konfigurasi pelatihan Anda. **Untuk mengakses pos pemeriksaan Anda** + Arahkan ke yang Anda tentukan `output_path` di S3 + Unduh dan ekstrak `output.tar.gz` file + Buka `manifest.json` file di dalamnya + Temukan `checkpoint_s3_bucket` parameter, yang berisi URI S3 dari model terlatih Anda **Contoh struktur manifest.json** ``` { "checkpoint_s3_bucket": "s3://customer-escrow--smtj-//stepID", ... } ``` ### Memahami ember escrow Karena bobot Amazon Nova adalah hak milik, pos pemeriksaan model terlatih disimpan dalam **bucket S3 escrow** dalam akun yang AWS dikelola daripada disalin ke akun Anda. Ember escrow ini: + Berisi bobot model khusus Anda dengan aman + Dapat direferensikan oleh AWS layanan lain (Inferensi, Evaluasi, dan pekerjaan pelatihan berikutnya) + Hanya dapat diakses ke AWS akun Anda melalui izin IAM + Menimbulkan biaya penyimpanan S3 standar di akun Anda (lihat Pertimbangan biaya) Anda dapat menggunakan jalur keranjang escrow seperti `model_name_or_path` dalam latihan Anda berikutnya untuk melanjutkan pelatihan berulang. ### Menggunakan pos pemeriksaan untuk pelatihan berulang Konfigurasikan tugas pelatihan Anda berikutnya untuk menggunakan pos pemeriksaan sebelumnya sebagai model dasar: ``` run: name: "my-iterative-training-job" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow--smtj-/" data_s3_path: s3:///.jsonl replicas: 4 ``` ## Kapan harus menggunakan pelatihan berulang ### Kasus penggunaan yang ideal Gunakan pelatihan berulang ketika Anda memiliki: + **Loop umpan balik** — Kemampuan untuk mengumpulkan kasus kegagalan dunia nyata dan mengatasinya secara sistematis + **Lingkungan dinamis** - Dokumentasi yang berkembang, APIs, atau topik pendukung yang membutuhkan pembaruan model berkala + **Evaluasi** yang kuat - Tolok ukur yang kuat dan kerangka evaluasi (lihat contoh di bawah) untuk mengukur peningkatan dengan percaya diri + **Kemampuan operasi ML** - Sumber daya untuk mengelola beberapa siklus pelatihan dan kontrol versi **Contoh kerangka evaluasi yang kuat** + Suite benchmark otomatis dengan pass/fail ambang batas + Protokol evaluasi manusia dengan metrik reliabilitas antar-penilai + Skenario pengujian tim merah yang mencakup kasus tepi dan input permusuhan + Infrastruktur pengujian A/B untuk mengukur dampak produksi ### Pola umum **SFT → RFT Pipeline: Pola** iteratif yang sering digunakan melibatkan: + **SFT pertama** — Ajarkan model bagaimana memecahkan masalah melalui contoh demonstrasi + **RFT kedua** - Optimalkan kinerja di seluruh ruang masalah yang lebih luas menggunakan sinyal hadiah Urutan ini penting ketika model berkinerja buruk pada awalnya — RFT pada model akurasi mendekati nol tidak akan meningkatkan kinerja tanpa terlebih dahulu menetapkan kemampuan pemecahan masalah dasar melalui SFT. ### Kapan tidak menggunakan pelatihan berulang Hindari pelatihan berulang untuk: + **Tugas yang stabil dan terdefinisi dengan baik** — Data stasioner dengan persyaratan konsisten yang sudah mencapai kinerja mendekati langit-langit + **Masalah klasifikasi sederhana** — Tugas sempit di mana pelatihan single-pass cukup + **Kendala sumber daya - Kurangnya** kemampuan operasi ML khusus untuk mengelola beberapa siklus pelatihan + **Keuntungan marjinal** - Ketika overhead tidak membenarkan peningkatan kinerja minimal ## Contoh alur kerja: SFT → RFT Contoh ini menunjukkan pola pelatihan berulang yang umum untuk model penalaran. ### Langkah 1: Pelatihan SFT awal Konfigurasikan dan luncurkan pekerjaan pelatihan SFT Anda dengan kumpulan data Anda: ``` run: name: "initial-sft-training" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod" data_s3_path: s3:///sft-training-data.jsonl validation_data_s3_path: s3:///sft-validation-data.jsonl ``` **Alasan**: SFT menyediakan demonstrasi tambahan yang membentuk output model ke dalam format dan suara yang Anda inginkan, membangun kemampuan dasar. **Setelah pelatihan selesai** + Perhatikan `output_path` konfigurasi dalam pekerjaan pelatihan Anda + Download `output.tar.gz` dari lokasi tersebut + Ekstrak dan temukan `manifest.json` + Salin `checkpoint_s3_bucket` nilainya ### Langkah 2: Pelatihan RFT di pos pemeriksaan SFT Buat pekerjaan pelatihan RFT baru menggunakan pos pemeriksaan SFT: ``` run: name: "rft-on-sft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow--smtj-/" data_s3_path: s3:///rft-training-data.jsonl reward_lambda_arn: ``` **Alasan**: Pelatihan RFT dibangun di atas fondasi SFT, memungkinkan model untuk mengembangkan pola penalaran yang lebih kompleks yang dioptimalkan oleh fungsi hadiah Anda. ### Langkah 3: Evaluasi dan iterasi Jalankan evaluasi di pos pemeriksaan RFT untuk menilai kinerja: ``` run: name: "evaluate-rft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow--smtj-/" data_s3_path: s3:///evaluation-data.jsonl ``` Jika metrik target tidak terpenuhi, lanjutkan iterasi dengan data atau hiperparameter yang disesuaikan. **penting** Teknik pelatihan (LoRa vs Peringkat Penuh) harus tetap konsisten di semua iterasi: **Jika Anda menggunakan SFT dengan **LoRa**, Anda harus menggunakan RFT dengan LoRa** **Jika Anda menggunakan SFT dengan **Peringkat Penuh**, Anda harus menggunakan RFT dengan Peringkat Penuh** Anda tidak dapat beralih antara Pipa tengah LoRa dan Peringkat Penuh **penting** Jika kunci KMS digunakan untuk enkripsi di bucket S3 keluaran milik Amazon, kunci KMS yang sama harus digunakan untuk semua iterasi future. ## Memantau kemajuan di seluruh iterasi Anda dapat melacak metrik MLflow melalui [pengaturan MLflow](nova-model-monitor.md#nova-customization-mlflow-setup) untuk pekerjaan Anda. ### Buat MLflow aplikasi **Menggunakan UI Studio**: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, MLflow aplikasi default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan. **Menggunakan CLI**: Jika Anda menggunakan CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan. ``` mlflow_app_name="" role_arn="" bucket_name="" region="" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region) ``` ### Akses MLflow aplikasinya **Menggunakan CLI**: Buat URL yang telah ditentukan sebelumnya untuk mengakses UI aplikasi: MLflow ``` aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text ``` **Menggunakan UI Studio**: UI Studio menampilkan metrik kunci yang disimpan MLflow dan menyediakan tautan ke UI MLflow aplikasi. ### Metrik kunci untuk dilacak Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan: **Untuk SFT** + Kurva kehilangan pelatihan + Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel + Akurasi kinerja pada set uji yang diheld-out + Kepatuhan format (misalnya, tingkat keluaran JSON yang valid) + Kebingungan pada data evaluasi khusus domain **Untuk RFT** + Skor hadiah rata-rata selama pelatihan + Distribusi hadiah (persentase respons hadiah tinggi) + Tren hadiah validasi (perhatikan overfitting) + Tingkat keberhasilan khusus tugas (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika) **Umum** + Delta kinerja benchmark antara iterasi + Skor evaluasi manusia pada sampel yang representatif + Metrik produksi (jika menerapkan secara berulang) ### Menentukan kapan harus berhenti Berhenti iterasi saat: + **Dataran tinggi kinerja** - Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna + **Peralihan teknik membantu** — Jika salah satu teknik mencapai puncak, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja + **Metrik target tercapai** - Kriteria keberhasilan Anda terpenuhi + **Regresi terdeteksi** - Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah) Untuk prosedur evaluasi terperinci, lihat bagian **Evaluasi**. ## Praktik terbaik ### Mulai dari yang kecil dan skala secara bertahap Mulailah dengan kumpulan data minimal dan periode pelatihan tunggal untuk memvalidasi pendekatan Anda sebelum meningkatkan skala. Ini membangun kepercayaan diri dan membantu mengidentifikasi masalah sejak dini. ### Menetapkan metrik keberhasilan yang jelas Tentukan indikator kuantitatif dan kualitatif sebelum memulai: **Contoh metrik keberhasilan berdasarkan kasus penggunaan** + **Menjawab pertanyaan** — Akurasi kecocokan yang tepat, skor F1, peringkat preferensi manusia + **Pembuatan kode** - Tingkat kelulusan pengujian unit, keberhasilan kompilasi, waktu eksekusi + **Tugas penalaran** — Akurasi langkah, kebenaran jawaban akhir, skor hadiah + **Pembuatan konten** - Skor koherensi, akurasi faktual, kepatuhan gaya ### Menerapkan evaluasi otomatis Siapkan jalur evaluasi otomatis untuk melacak kinerja setelah setiap putaran, memungkinkan iterasi cepat dan perbandingan objektif. ### Pertahankan kontrol versi yang ketat Dokumen untuk setiap iterasi: + Versi dan modifikasi dataset + Model lokasi pos pemeriksaan + Perubahan hyperparameter + Metrik kinerja dan delta + Pengamatan kualitatif Ini membangun pengetahuan kelembagaan dan memungkinkan debugging. ### Fokus pada kualitas data daripada kuantitas Analisis kasus kegagalan dari putaran sebelumnya dan tambahkan contoh berkualitas tinggi yang ditargetkan daripada hanya meningkatkan ukuran kumpulan data. ### Rencanakan anggaran iterasi Rencanakan **3-5 iterasi** sebagai rentang tipikal: + **1-2 iterasi** — Seringkali cukup untuk perbaikan sederhana atau pemolesan akhir + **3-5 iterasi** — Sesuai untuk tugas-tugas kompleks yang membutuhkan beberapa siklus penyempurnaan + **5\$1 iterasi** — Dapat menunjukkan pengembalian yang berkurang atau kebutuhan untuk pendekatan yang berbeda Sesuaikan berdasarkan anggaran komputasi dan tingkat peningkatan kinerja. ### Menerapkan kemampuan rollback Jika iterasi memperkenalkan regresi: + **Identifikasi regresi** — Bandingkan metrik evaluasi di seluruh pos pemeriksaan + **Kembali ke pos pemeriksaan sebelumnya** - Gunakan jalur S3 pos pemeriksaan sebelumnya sebagai milik Anda `model_name_or_path` + **Sesuaikan pendekatan pelatihan** — Ubah data, hiperparameter, atau teknik sebelum mencoba lagi + **Dokumentasikan kegagalan** — Catat apa yang menyebabkan regresi untuk menghindari pengulangan **Contoh rollback** ``` run: name: "rollback-to-iteration-2" model_type: amazon.nova-2-lite-v1:0:256k # Use iteration 2 checkpoint instead of failed iteration 3 model_name_or_path: "s3://customer-escrow--smtj-/" ``` ## Pertimbangan Biaya ### Penyimpanan pos pemeriksaan + **Lokasi** - Pos pemeriksaan yang disimpan dalam ember escrow dikenakan biaya penyimpanan S3 standar yang ditagih ke akun Anda AWS + **Retensi** - Pos pemeriksaan dipertahankan tanpa batas kecuali dihapus secara eksplisit + **Manajemen** - Menerapkan kebijakan siklus hidup untuk mengarsipkan atau menghapus pos pemeriksaan lama yang tidak lagi Anda perlukan **Kiat pengoptimalan biaya** + Hapus pos pemeriksaan menengah setelah memvalidasi iterasi yang lebih baru + Arsipkan pos pemeriksaan ke S3 Glacier untuk retensi jangka panjang dengan biaya lebih rendah + Tetapkan kebijakan retensi berdasarkan kepatuhan dan kebutuhan eksperimen ## Batasan ### Konsistensi keluarga model Saat pelatihan berulang, Anda harus menggunakan **jenis model yang sama** di semua iterasi. **Pelatihan awal** ``` run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod" ``` **Iterasi berikutnya harus menggunakan model\$1type yang sama** ``` run: model_type: amazon.nova-2-lite-v1:0:256k # Must match original model_name_or_path: "s3://customer-escrow--smtj-/" ``` ### Konsistensi teknik pelatihan Teknik pelatihan harus tetap konsisten di seluruh iterasi: + **Model yang dilatih Lora hanya dapat dilatih secara iteratif dengan LoRa** + **Full-Rank-trained model** hanya dapat dilatih secara iteratif dengan Full-Rank **Bagaimana adaptor LoRa bekerja dalam pelatihan berulang** + Setiap iterasi pelatihan LoRa menghasilkan bobot adaptor baru + Adaptor baru mengganti (bukan tumpukan dengan) adaptor sebelumnya + Model dasar tetap beku; hanya adaptor yang diperbarui ### Matriks kompatibilitas teknik | Pelatihan awal | Dapat iterasi dengan | | --- | --- | | SFT (Peringkat Penuh) | SFT (Peringkat Penuh), RFT (Peringkat Penuh) | | SFT (LoRa) | SFT (LoRa), RFT (LoRa) | | RFT (Peringkat Penuh) | RFT (Peringkat Penuh) | | RFT (LoRa) | RFT (LoRa) | **Memverifikasi kompatibilitas sebelum memulai pekerjaan** + Periksa resep pelatihan Anda sebelumnya untuk mengidentifikasi jenis model dan teknik pelatihan (LoRa vs Peringkat Penuh) + Pastikan resep baru Anda cocok dengan jenis model dan teknik + Tinjau manifest.json untuk mengonfirmasi jalur pos pemeriksaan sudah benar ## Pemecahan masalah ### Kesalahan: “Teknik pelatihan model yang tidak kompatibel terdeteksi” **Penyebab**: Teknik pelatihan (LoRa vs Peringkat Penuh) tidak cocok dengan teknik pos pemeriksaan. **Resolusi**: Pastikan resep Anda menggunakan teknik pelatihan yang sama dengan model aslinya: + Jika pos pemeriksaan dilatih dengan LoRa, gunakan LoRa dalam resep baru Anda + Jika pos pemeriksaan dilatih dengan Peringkat Penuh, gunakan Peringkat Penuh dalam resep baru Anda ### Kesalahan: “Model dasar untuk pekerjaan yang diekstrak dari model\$1name\$1or\$1path tidak cocok dengan model\$1type” **Penyebab**: Jenis model yang ditentukan `model_type` tidak cocok dengan model sebenarnya di pos pemeriksaan. **Resolusi**: Verifikasi bahwa: + `model_type`Dalam resep Anda cocok dengan jenis model asli + Jalur pos pemeriksaan S3 sudah benar `model_name_or_path` + Anda menggunakan jalur dari file manifest.json yang benar **Contoh konfigurasi yang benar** ``` run: model_type: amazon.nova-2-lite-v1:0:256k # Must match checkpoint's model model_name_or_path: "s3://customer-escrow--smtj-/" ``` ### Kesalahan: “Konfigurasi model tidak ditemukan” **Penyebab**: Jalur S3 tidak valid atau `model_name_or_path` tidak dapat diakses. **Resolusi**: + Verifikasi jalur S3 disalin dengan benar dari file manifest.json + Pastikan peran IAM Anda memiliki izin untuk mengakses keranjang escrow + Konfirmasikan pekerjaan pelatihan sebelumnya berhasil diselesaikan + Periksa kesalahan ketik di jalur ### Regresi kinerja setelah iterasi **Gejala**: Metrik evaluasi menurun setelah iterasi pelatihan baru. **Resolusi**: + **Rollback** - Gunakan pos pemeriksaan sebelumnya sebagai model dasar Anda + **Analisis** — Meninjau log pelatihan dan kualitas data untuk iterasi yang gagal + **Sesuaikan** — Ubah hiperparameter (kurangi tingkat pembelajaran), tingkatkan kualitas data, atau kurangi zaman pelatihan + **Coba lagi** - Luncurkan iterasi baru dengan penyesuaian