Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Siapkan dataset

Mode fokus
Siapkan dataset - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

  • Jenis pekerjaan kustomisasi (Distilasi, Penyetelan Sempurna, atau Pra-pelatihan Lanjutan).

    Jika Anda berencana menggunakan Distilasi, lihat Prasyarat untuk Distilasi Model Batuan Dasar Amazon untuk informasi lebih lanjut.

  • Modalitas input dan output data.

Dukungan model untuk distilasi, fine-tuning, dan pra-pelatihan lanjutan

Tabel berikut menunjukkan modalitas input dan output untuk distilasi, fine-tuning dan pra-pelatihan lanjutan yang didukung untuk setiap model masing-masing:

Nama model Distilasi: Text-to-text Penyetelan halus: T ext-to-text Penyetelan halus: & Text-to-image Image-to-embeddings Penyetelan halus: Teks+ & Teks+Video-ke-Teks Image-to-Text Pra-pelatihan lanjutan: T ext-to-text Penyetelan halus: Pesan satu putaran Penyetelan halus: Perpesanan multi-putaran
Amazon Nova Pro Ya Ya Ya Ya Tidak Ya Ya
Amazon Nova Lite Ya Ya Ya Ya Tidak Ya Ya
Amazon Nova Mikro Ya Ya Tidak Tidak Tidak Ya Ya
Amazon Titan Text G1 - Express Tidak Ya Tidak Tidak Ya Tidak Tidak
Amazon Titan Text G1 - Lite Tidak Ya Tidak Tidak Ya Tidak Tidak
Amazon Titan Teks Premier Tidak Ya Tidak Tidak Tidak Tidak Tidak
Amazon Titan Image Generator G1 V1 Tidak Ya Ya Tidak Tidak Tidak Tidak
Amazon Titan Multimodal Embeddings G1 G1 Tidak Ya Ya Tidak Tidak Tidak Tidak
Anthropic Claude 3 Haiku Ya Tidak Tidak Tidak Tidak Ya Ya
Cohere Command Tidak Ya Tidak Tidak Tidak Tidak Tidak
Cohere Command Light Tidak Ya Tidak Tidak Tidak Tidak Tidak
Meta Llama 2 13B Tidak Ya Tidak Tidak Tidak Tidak Tidak
Meta Llama 2 70B Tidak Ya Tidak Tidak Tidak Tidak Tidak

Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Siapkan kumpulan data untuk model kustom Anda

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, yang setiap barisnya adalah objek JSON yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih dan catatan di dalamnya harus sesuai dengan persyaratan ukuran.

Formatnya tergantung pada metode kustomisasi dan modalitas input dan output model. Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:

Fine-tuning: Text-to-text

Untuk Titan, Cohere, dan Llama text-to-textmodel, menyiapkan pelatihan dan dataset validasi opsional. Setiap objek JSON adalah sampel yang berisi a prompt dan completion bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova model mengharapkan data pelatihan dalam struktur JSON yang berbeda. Model-model ini menggunakan prompt sistem bersama dengan "role": "user" dan "role": "assistant" pesan untuk menyempurnakan model. Formatnya adalah sebagai berikut:

// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

Untuk informasi selengkapnya, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Fine-tuning: Text-to-image & Image-to-embeddings
catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Continued Pre-training: Text-to-text

Untuk melaksanakan Pra-pelatihan Lanjutan pada suatu text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Karena Pra-pelatihan Lanjutan melibatkan data yang tidak berlabel, setiap baris JSON adalah sampel yang hanya berisi bidang. input Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Berikut ini adalah contoh item yang bisa ada dalam data pelatihan.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging
catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk menyempurnakan text-to-text model menggunakan format pesan satu putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam format JSONL. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

  • system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.

  • messages: Sebuah array objek pesan, masing-masing berisi:

    • role: Entah user atau assistant

    • content: Isi teks pesan

Aturan

  • messagesArray harus berisi 2 pesan

  • Pesan pertama harus memiliki role pengguna

  • Pesan terakhir harus memiliki role asisten

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Contoh

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging
catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk menyempurnakan text-to-text model menggunakan format pesan multi-putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam format JSONL. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

  • system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.

  • messages: Sebuah array objek pesan, masing-masing berisi:

    • role: Entah user atau assistant

    • content: Isi teks pesan

Aturan

  • messagesArray harus berisi setidaknya 2 pesan

  • Pesan pertama harus memiliki role pengguna

  • Pesan terakhir harus memiliki role asisten

  • Pesan harus bergantian antara user dan assistant peran.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Contoh

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation
catatan

Amazon Nova model memiliki persyaratan yang berbeda. Untuk menyaring model ini, ikuti instruksi di Distilling Amazon Nova model.

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk pekerjaan distilasi model, lihat. Prasyarat untuk Distilasi Model Batuan Dasar Amazon

Untuk Titan, Cohere, dan Llama text-to-textmodel, menyiapkan pelatihan dan dataset validasi opsional. Setiap objek JSON adalah sampel yang berisi a prompt dan completion bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova model mengharapkan data pelatihan dalam struktur JSON yang berbeda. Model-model ini menggunakan prompt sistem bersama dengan "role": "user" dan "role": "assistant" pesan untuk menyempurnakan model. Formatnya adalah sebagai berikut:

// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

Untuk informasi selengkapnya, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Pilih tab untuk melihat persyaratan kumpulan data pelatihan dan validasi untuk model:

Amazon Nova
Model Sampel Minimum Sampel Maksimum Panjang Konteks
Amazon Nova Micro 100 20k 32k
Amazon Nova Lite 8 20k (10k untuk dokumen) 32k
Amazon Nova Pro 100 10k 32k

Kendala gambar dan video

Ukuran file gambar maksimum 10 MB
Video maksimum 1 per sampel
Panjang atau durasi video maksimum 90 detik
Ukuran file video maksimum 50 MB
Format gambar yang didukung PNG, JPEG, GIF, WEBP
Format video yang didukung MOV, MKV, WEBM MP4
Amazon Titan Text Premier
Deskripsi Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 N/A
Kuota karakter per sampel dalam dataset Kuota Token x 6
Ukuran file kumpulan data pelatihan 1 GB
Ukuran file dataset validasi 100 MB
Amazon Titan Text G1 - Express
Deskripsi Maksimum (Lanjutan Pra-pelatihan) Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096 4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 2,048 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6 Kuota Token x 6
Ukuran file kumpulan data pelatihan 10 GB 1 GB
Ukuran file dataset validasi 100 MB 100 MB
Amazon Titan Text G1 - Lite
Deskripsi Maksimum (Lanjutan Pra-pelatihan) Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 atau 2 4,096 4,096
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 2,048 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6 Kuota Token x 6
Ukuran file kumpulan data pelatihan 10 GB 1 GB
Ukuran file dataset validasi 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 3 1,024
Catatan dalam kumpulan data pelatihan 5 10.000
Ukuran gambar masukan 0 50 MB
Input tinggi gambar dalam piksel 512 4,096
Masukan lebar gambar dalam piksel 512 4,096
Masukan total piksel gambar 0 12,582,912
Rasio aspek gambar masukan 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Deskripsi Minimum (Penyetelan halus) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 0 2,560
Catatan dalam kumpulan data pelatihan 1.000 500.000
Ukuran gambar masukan 0 5 MB
Input tinggi gambar dalam piksel 128 4096
Masukan lebar gambar dalam piksel 128 4096
Masukan total piksel gambar 0 12,528,912
Rasio aspek gambar masukan 1:4 4:1
Cohere Command
Deskripsi Maksimum (Fine-tuning)
Token masukan 4,096
Token keluaran 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6
Catatan dalam kumpulan data pelatihan 10.000
Merekam dalam kumpulan data validasi 1.000
Meta Llama 2
Deskripsi Maksimum (Fine-tuning)
Token masukan 4,096
Token keluaran 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6
Meta Llama 3.1
Deskripsi Maksimum (Fine-tuning)
Token masukan 16.000
Token keluaran 16.000
Kuota karakter per sampel dalam dataset Kuota Token x 6
Model Sampel Minimum Sampel Maksimum Panjang Konteks
Amazon Nova Micro 100 20k 32k
Amazon Nova Lite 8 20k (10k untuk dokumen) 32k
Amazon Nova Pro 100 10k 32k

Kendala gambar dan video

Ukuran file gambar maksimum 10 MB
Video maksimum 1 per sampel
Panjang atau durasi video maksimum 90 detik
Ukuran file video maksimum 50 MB
Format gambar yang didukung PNG, JPEG, GIF, WEBP
Format video yang didukung MOV, MKV, WEBM MP4

Untuk pedoman persiapan data Amazon Nova, lihat Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.