Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.
-
Jenis pekerjaan kustomisasi (Distilasi, Penyetelan Sempurna, atau Pra-pelatihan Lanjutan).
Jika Anda berencana menggunakan Distilasi, lihat Prasyarat untuk Distilasi Model Batuan Dasar Amazon untuk informasi lebih lanjut.
-
Modalitas input dan output data.
Dukungan model untuk distilasi, fine-tuning, dan pra-pelatihan lanjutan
Tabel berikut menunjukkan modalitas input dan output untuk distilasi, fine-tuning dan pra-pelatihan lanjutan yang didukung untuk setiap model masing-masing:
Nama model | Distilasi: Text-to-text | Penyetelan halus: T ext-to-text | Penyetelan halus: & Text-to-image Image-to-embeddings | Penyetelan halus: Teks+ & Teks+Video-ke-Teks Image-to-Text | Pra-pelatihan lanjutan: T ext-to-text | Penyetelan halus: Pesan satu putaran | Penyetelan halus: Perpesanan multi-putaran |
---|---|---|---|---|---|---|---|
Amazon Nova Pro | Ya | Ya | Ya | Ya | Tidak | Ya | Ya |
Amazon Nova Lite | Ya | Ya | Ya | Ya | Tidak | Ya | Ya |
Amazon Nova Mikro | Ya | Ya | Tidak | Tidak | Tidak | Ya | Ya |
Amazon Titan Text G1 - Express | Tidak | Ya | Tidak | Tidak | Ya | Tidak | Tidak |
Amazon Titan Text G1 - Lite | Tidak | Ya | Tidak | Tidak | Ya | Tidak | Tidak |
Amazon Titan Teks Premier | Tidak | Ya | Tidak | Tidak | Tidak | Tidak | Tidak |
Amazon Titan Image Generator G1 V1 | Tidak | Ya | Ya | Tidak | Tidak | Tidak | Tidak |
Amazon Titan Multimodal Embeddings G1 G1 | Tidak | Ya | Ya | Tidak | Tidak | Tidak | Tidak |
Anthropic Claude 3 Haiku | Ya | Tidak | Tidak | Tidak | Tidak | Ya | Ya |
Cohere Command | Tidak | Ya | Tidak | Tidak | Tidak | Tidak | Tidak |
Cohere Command Light | Tidak | Ya | Tidak | Tidak | Tidak | Tidak | Tidak |
Meta Llama 2 13B | Tidak | Ya | Tidak | Tidak | Tidak | Tidak | Tidak |
Meta Llama 2 70B | Tidak | Ya | Tidak | Tidak | Tidak | Tidak | Tidak |
Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
Siapkan kumpulan data untuk model kustom Anda
Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl
file, yang setiap barisnya adalah objek JSON yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih dan catatan di dalamnya harus sesuai dengan persyaratan ukuran.
Formatnya tergantung pada metode kustomisasi dan modalitas input dan output model. Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:
Untuk Titan, Cohere, dan Llama text-to-textmodel, menyiapkan pelatihan dan dataset validasi opsional. Setiap objek JSON adalah sampel yang berisi a prompt
dan completion
bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut:
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Berikut ini adalah item contoh untuk tugas tanya jawab:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Amazon Nova model mengharapkan data pelatihan dalam struktur JSON yang berbeda. Model-model ini menggunakan prompt sistem bersama dengan "role": "user"
dan "role": "assistant"
pesan untuk menyempurnakan model. Formatnya adalah sebagai berikut:
// train.jsonl
{
"schemaVersion": "bedrock-conversation-2024",
"system": [
{
"text": "You are a digital assistant with a friendly personality"
}
],
"messages": [
{
"role": "user",
"content": [
{
"text": "What is the capital of Mars?"
}
]
},
{
"role": "assistant",
"content": [
{
"text": "Mars does not have a capital. Perhaps it will one day."
}
]
}
]
}
Untuk informasi selengkapnya, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.
Pilih tab untuk melihat persyaratan kumpulan data pelatihan dan validasi untuk model:
Model | Sampel Minimum | Sampel Maksimum | Panjang Konteks |
---|---|---|---|
Amazon Nova Micro | 100 | 20k | 32k |
Amazon Nova Lite | 8 | 20k (10k untuk dokumen) | 32k |
Amazon Nova Pro | 100 | 10k | 32k |
Kendala gambar dan video
Ukuran file gambar maksimum | 10 MB |
Video maksimum | 1 per sampel |
Panjang atau durasi video maksimum | 90 detik |
Ukuran file video maksimum | 50 MB |
Format gambar yang didukung | PNG, JPEG, GIF, WEBP |
Format video yang didukung | MOV, MKV, WEBM MP4 |
Untuk pedoman persiapan data Amazon Nova, lihat Pedoman untuk menyiapkan data Anda untuk Amazon Nova.