Siapkan dataset

Mode fokus

Siapkan dataset - Amazon Bedrock

Dukungan model untuk distilasi, fine-tuning, dan pra-pelatihan lanjutan Siapkan kumpulan data untuk model kustom Anda

Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

Jenis pekerjaan kustomisasi (Distilasi, Penyetelan Sempurna, atau Pra-pelatihan Lanjutan).

Jika Anda berencana menggunakan Distilasi, lihat Prasyarat untuk Distilasi Model Batuan Dasar Amazon untuk informasi lebih lanjut.
Modalitas input dan output data.

Dukungan model untuk distilasi, fine-tuning, dan pra-pelatihan lanjutan

Tabel berikut menunjukkan modalitas input dan output untuk distilasi, fine-tuning dan pra-pelatihan lanjutan yang didukung untuk setiap model masing-masing:

Nama model	Distilasi: Text-to-text	Penyetelan halus: T ext-to-text	Penyetelan halus: & Text-to-image Image-to-embeddings	Penyetelan halus: Teks+ & Teks+Video-ke-Teks Image-to-Text	Pra-pelatihan lanjutan: T ext-to-text	Penyetelan halus: Pesan satu putaran	Penyetelan halus: Perpesanan multi-putaran
Amazon Nova Pro	Ya	Ya	Ya	Ya	Tidak	Ya	Ya
Amazon Nova Lite	Ya	Ya	Ya	Ya	Tidak	Ya	Ya
Amazon Nova Mikro	Ya	Ya	Tidak	Tidak	Tidak	Ya	Ya
Amazon Titan Text G1 - Express	Tidak	Ya	Tidak	Tidak	Ya	Tidak	Tidak
Amazon Titan Text G1 - Lite	Tidak	Ya	Tidak	Tidak	Ya	Tidak	Tidak
Amazon Titan Teks Premier	Tidak	Ya	Tidak	Tidak	Tidak	Tidak	Tidak
Amazon Titan Image Generator G1 V1	Tidak	Ya	Ya	Tidak	Tidak	Tidak	Tidak
Amazon Titan Multimodal Embeddings G1 G1	Tidak	Ya	Ya	Tidak	Tidak	Tidak	Tidak
Anthropic Claude 3 Haiku	Ya	Tidak	Tidak	Tidak	Tidak	Ya	Ya
Cohere Command	Tidak	Ya	Tidak	Tidak	Tidak	Tidak	Tidak
Cohere Command Light	Tidak	Ya	Tidak	Tidak	Tidak	Tidak	Tidak
Meta Llama 2 13B	Tidak	Ya	Tidak	Tidak	Tidak	Tidak	Tidak
Meta Llama 2 70B	Tidak	Ya	Tidak	Tidak	Tidak	Tidak	Tidak

Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Siapkan kumpulan data untuk model kustom Anda

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, yang setiap barisnya adalah objek JSON yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih dan catatan di dalamnya harus sesuai dengan persyaratan ukuran.

Formatnya tergantung pada metode kustomisasi dan modalitas input dan output model. Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:

Fine-tuning: Text-to-text

Untuk Titan, Cohere, dan Llama text-to-textmodel, menyiapkan pelatihan dan dataset validasi opsional. Setiap objek JSON adalah sampel yang berisi a prompt dan completion bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut:


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova model mengharapkan data pelatihan dalam struktur JSON yang berbeda. Model-model ini menggunakan prompt sistem bersama dengan "role": "user" dan "role": "assistant" pesan untuk menyempurnakan model. Formatnya adalah sebagai berikut:


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Untuk informasi selengkapnya, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Fine-tuning: Text-to-image & Image-to-embeddings

catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Continued Pre-training: Text-to-text

Untuk melaksanakan Pra-pelatihan Lanjutan pada suatu text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Karena Pra-pelatihan Lanjutan melibatkan data yang tidak berlabel, setiap baris JSON adalah sampel yang hanya berisi bidang. input Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

Berikut ini adalah contoh item yang bisa ada dalam data pelatihan.


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk menyempurnakan text-to-text model menggunakan format pesan satu putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam format JSONL. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.
messages: Sebuah array objek pesan, masing-masing berisi:
- role: Entah user atau assistant
- content: Isi teks pesan

Aturan

messagesArray harus berisi 2 pesan
Pesan pertama harus memiliki role pengguna
Pesan terakhir harus memiliki role asisten


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Contoh


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

catatan

Amazon Nova model memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Untuk menyempurnakan text-to-text model menggunakan format pesan multi-putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam format JSONL. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.
messages: Sebuah array objek pesan, masing-masing berisi:
- role: Entah user atau assistant
- content: Isi teks pesan

Aturan

messagesArray harus berisi setidaknya 2 pesan
Pesan pertama harus memiliki role pengguna
Pesan terakhir harus memiliki role asisten
Pesan harus bergantian antara user dan assistant peran.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Contoh


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

catatan

Amazon Nova model memiliki persyaratan yang berbeda. Untuk menyaring model ini, ikuti instruksi di Distilling Amazon Nova model.

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk pekerjaan distilasi model, lihat. Prasyarat untuk Distilasi Model Batuan Dasar Amazon

anchor anchor anchor anchor anchor anchor


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Untuk informasi selengkapnya, ikuti petunjuk di Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Pilih tab untuk melihat persyaratan kumpulan data pelatihan dan validasi untuk model:

Amazon Nova

Model	Sampel Minimum	Sampel Maksimum	Panjang Konteks
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k (10k untuk dokumen)	32k
Amazon Nova Pro	100	10k	32k

Kendala gambar dan video

Ukuran file gambar maksimum	10 MB
Video maksimum	1 per sampel
Panjang atau durasi video maksimum	90 detik
Ukuran file video maksimum	50 MB
Format gambar yang didukung	PNG, JPEG, GIF, WEBP
Format video yang didukung	MOV, MKV, WEBM MP4

Amazon Titan Text Premier

Deskripsi	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1	4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4	N/A
Kuota karakter per sampel dalam dataset	Kuota Token x 6
Ukuran file kumpulan data pelatihan	1 GB
Ukuran file dataset validasi	100 MB

Amazon Titan Text G1 - Express

Deskripsi	Maksimum (Lanjutan Pra-pelatihan)	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1	4,096	4,096
Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4	2,048	2,048
Kuota karakter per sampel dalam dataset	Kuota Token x 6	Kuota Token x 6
Ukuran file kumpulan data pelatihan	10 GB	1 GB
Ukuran file dataset validasi	100 MB	100 MB

Amazon Titan Text G1 - Lite

Deskripsi	Maksimum (Lanjutan Pra-pelatihan)	Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 atau 2	4,096	4,096
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6	2,048	2,048
Kuota karakter per sampel dalam dataset	Kuota Token x 6	Kuota Token x 6
Ukuran file kumpulan data pelatihan	10 GB	1 GB
Ukuran file dataset validasi	100 MB	100 MB

Amazon Titan Image Generator G1 V1

Deskripsi	Minimum (Penyetelan halus)	Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter	3	1,024
Catatan dalam kumpulan data pelatihan	5	10.000
Ukuran gambar masukan	0	50 MB
Input tinggi gambar dalam piksel	512	4,096
Masukan lebar gambar dalam piksel	512	4,096
Masukan total piksel gambar	0	12,582,912
Rasio aspek gambar masukan	1:4	4:1

Amazon Titan Multimodal Embeddings G1

Deskripsi	Minimum (Penyetelan halus)	Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter	0	2,560
Catatan dalam kumpulan data pelatihan	1.000	500.000
Ukuran gambar masukan	0	5 MB
Input tinggi gambar dalam piksel	128	4096
Masukan lebar gambar dalam piksel	128	4096
Masukan total piksel gambar	0	12,528,912
Rasio aspek gambar masukan	1:4	4:1

Cohere Command

Deskripsi	Maksimum (Fine-tuning)
Token masukan	4,096
Token keluaran	2,048
Kuota karakter per sampel dalam dataset	Kuota Token x 6
Catatan dalam kumpulan data pelatihan	10.000
Merekam dalam kumpulan data validasi	1.000

Meta Llama 2

Deskripsi	Maksimum (Fine-tuning)
Token masukan	4,096
Token keluaran	2,048
Kuota karakter per sampel dalam dataset	Kuota Token x 6

Meta Llama 3.1

Deskripsi	Maksimum (Fine-tuning)
Token masukan	16.000
Token keluaran	16.000
Kuota karakter per sampel dalam dataset	Kuota Token x 6

anchor anchor anchor anchor anchor anchor anchor anchor anchor

Model	Sampel Minimum	Sampel Maksimum	Panjang Konteks
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k (10k untuk dokumen)	32k
Amazon Nova Pro	100	10k	32k

Kendala gambar dan video

Ukuran file gambar maksimum	10 MB
Video maksimum	1 per sampel
Panjang atau durasi video maksimum	90 detik
Ukuran file video maksimum	50 MB
Format gambar yang didukung	PNG, JPEG, GIF, WEBP
Format video yang didukung	MOV, MKV, WEBM MP4

Untuk pedoman persiapan data Amazon Nova, lihat Pedoman untuk menyiapkan data Anda untuk Amazon Nova.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Prasyarat untuk kustomisasi model

[Opsional] Lindungi pekerjaan penyesuaian model Anda menggunakan VPC

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Siapkan dataset

Dukungan model untuk distilasi, fine-tuning, dan pra-pelatihan lanjutan

Siapkan kumpulan data untuk model kustom Anda

catatan

catatan

catatan

catatan

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?