Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan dataset
Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.
Dukungan model untuk fine-tuning dan melanjutkan format data pra-pelatihan
Tabel berikut menunjukkan detail format data fine-tuning dan lanjutan pra-pelatihan yang didukung untuk setiap model masing-masing:
Nama model |
Penyetelan halus: T ext-to-text |
Penyetelan halus: & Text-to-image Image-to-embeddings |
Pra-pelatihan lanjutan: T ext-to-text |
Penyetelan halus: Pesan satu putaran |
Penyetelan halus: Pesan multi-putaran |
Amazon Titan Text G1 - Express |
Ya |
Tidak |
Ya |
Tidak |
Tidak |
Amazon Titan Text G1 - Lite |
Ya |
Tidak |
Ya |
Tidak |
Tidak |
Amazon Titan Teks Premier |
Ya |
Tidak |
Tidak |
Tidak |
Tidak |
Amazon Titan Image Generator G1 V1 |
Ya |
Ya |
Tidak |
Tidak |
Tidak |
Amazon Titan Multimodal Embeddings G1 G1 |
Ya |
Ya |
Tidak |
Tidak |
Tidak |
Anthropic Claude 3 Haiku |
Tidak |
Tidak |
Tidak |
Ya |
Ya |
Cohere Command |
Ya |
Tidak |
Tidak |
Tidak |
Tidak |
Cohere Command Light |
Ya |
Tidak |
Tidak |
Tidak |
Tidak |
Meta Llama 2 13B |
Ya |
Tidak |
Tidak |
Tidak |
Tidak |
Meta Llama 2 70B |
Ya |
Tidak |
Tidak |
Tidak |
Tidak |
Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
Siapkan kumpulan data pelatihan dan validasi untuk model kustom Anda
Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl
file, yang setiap barisnya adalah JSON objek yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih dan catatan di dalamnya harus sesuai dengan persyaratan ukuran.
Formatnya tergantung pada metode kustomisasi dan modalitas input dan output model. Pilih tab yang sesuai dengan metode pilihan Anda dan ikuti langkah-langkahnya:
- Fine-tuning: Text-to-text
-
Untuk text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Setiap JSON objek adalah sampel yang berisi a prompt
dan completion
bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Berikut ini adalah item contoh untuk tugas tanya jawab:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap JSON objek adalah sampel yang berisiimage-ref
, Amazon S3 URI untuk gambar, dan caption
yang bisa menjadi prompt untuk gambar.
Gambar harus dalam JPEG atau PNG format.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Berikut ini adalah item contoh:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan IAM kebijakan yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan penyesuaian model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.
- Continued Pre-training: Text-to-text
-
Untuk melaksanakan Pra-pelatihan Lanjutan pada suatu text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Karena Pra-pelatihan Lanjutan melibatkan data yang tidak berlabel, setiap JSON baris adalah sampel yang hanya berisi bidang. input
Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Berikut ini adalah contoh item yang bisa ada dalam data pelatihan.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Untuk menyempurnakan text-to-text model menggunakan format pesan satu putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam JSONL format. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.
Bidang
-
system
(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.
-
messages
: Sebuah array objek pesan, masing-masing berisi:
Aturan
-
messages
Array harus berisi 2 pesan
-
Pesan pertama harus memiliki role
pengguna
-
Pesan terakhir harus memiliki role
asisten
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Contoh
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Untuk menyempurnakan text-to-text model menggunakan format pesan multi-putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam JSONL format. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.
Bidang
-
system
(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.
-
messages
: Sebuah array objek pesan, masing-masing berisi:
Aturan
-
messages
Array harus berisi 2 pesan
-
Pesan pertama harus memiliki role
pengguna
-
Pesan terakhir harus memiliki role
asisten
-
Pesan harus bergantian antara user
dan assistant
peran.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Contoh
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Pilih tab untuk melihat persyaratan kumpulan data pelatihan dan validasi untuk model:
- Amazon Titan Text Premier
-
Deskripsi |
Maksimum (Fine-tuning) |
Jumlah token input dan output saat ukuran batch adalah 1 |
4,096 |
Jumlah token input dan output saat ukuran batch 2, 3, atau 4 |
N/A |
Kuota karakter per sampel dalam dataset |
Kuota Token x 6 |
Ukuran file kumpulan data pelatihan |
1 GB |
Ukuran file dataset validasi |
100 MB |
- Amazon Titan Text G1 - Express
-
Deskripsi |
Maksimum (Lanjutan Pra-pelatihan) |
Maksimum (Fine-tuning) |
Jumlah token input dan output saat ukuran batch adalah 1 |
4,096 |
4,096 |
Jumlah token input dan output saat ukuran batch 2, 3, atau 4 |
2,048 |
2,048 |
Kuota karakter per sampel dalam dataset |
Kuota Token x 6 |
Kuota Token x 6 |
Ukuran file kumpulan data pelatihan |
10 GB |
1 GB |
Ukuran file dataset validasi |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
Deskripsi |
Maksimum (Lanjutan Pra-pelatihan) |
Maksimum (Fine-tuning) |
Jumlah token input dan output saat ukuran batch adalah 1 atau 2 |
4,096 |
4,096 |
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 |
2,048 |
2,048 |
Kuota karakter per sampel dalam dataset |
Kuota Token x 6 |
Kuota Token x 6 |
Ukuran file kumpulan data pelatihan |
10 GB |
1 GB |
Ukuran file dataset validasi |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
Deskripsi |
Minimum (Fine-tuning) |
Maksimum (Fine-tuning) |
Panjang prompt teks dalam sampel pelatihan, dalam karakter |
3 |
1,024 |
Catatan dalam kumpulan data pelatihan |
5 |
10.000 |
Ukuran gambar masukan |
0 |
50 MB |
Input tinggi gambar dalam piksel |
512 |
4,096 |
Masukan lebar gambar dalam piksel |
512 |
4,096 |
Masukan total piksel gambar |
0 |
12,582,912 |
Rasio aspek gambar masukan |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Deskripsi |
Minimum (Fine-tuning) |
Maksimum (Fine-tuning) |
Panjang prompt teks dalam sampel pelatihan, dalam karakter |
0 |
2,560 |
Catatan dalam kumpulan data pelatihan |
1.000 |
500.000 |
Ukuran gambar masukan |
0 |
5 MB |
Input tinggi gambar dalam piksel |
128 |
4096 |
Masukan lebar gambar dalam piksel |
128 |
4096 |
Masukan total piksel gambar |
0 |
12,528,912 |
Rasio aspek gambar masukan |
1:4 |
4:1 |
- Cohere Command
-
Deskripsi |
Maksimum (Fine-tuning) |
Token masukan |
4,096 |
Token keluaran |
2,048 |
Kuota karakter per sampel dalam dataset |
Kuota Token x 6 |
Catatan dalam kumpulan data pelatihan |
10.000 |
Merekam dalam kumpulan data validasi |
1.000 |
- Meta Llama 2
-
Deskripsi |
Maksimum (Fine-tuning) |
Token masukan |
4,096 |
Token keluaran |
2,048 |
Kuota karakter per sampel dalam dataset |
Kuota Token x 6 |