Siapkan dataset - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan dataset

Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

  • Jenis pekerjaan kustomisasi (fine-tuning atau Continued Pre-training).

  • Modalitas input dan output data.

Dukungan model untuk fine-tuning dan melanjutkan format data pra-pelatihan

Tabel berikut menunjukkan detail format data fine-tuning dan lanjutan pra-pelatihan yang didukung untuk setiap model masing-masing:

Nama model Penyetelan halus: T ext-to-text Penyetelan halus: & Text-to-image Image-to-embeddings Pra-pelatihan lanjutan: T ext-to-text Penyetelan halus: Pesan satu putaran Penyetelan halus: Pesan multi-putaran
Amazon Titan Text G1 - Express Ya Tidak Ya Tidak Tidak
Amazon Titan Text G1 - Lite Ya Tidak Ya Tidak Tidak
Amazon Titan Teks Premier Ya Tidak Tidak Tidak Tidak
Amazon Titan Image Generator G1 V1 Ya Ya Tidak Tidak Tidak
Amazon Titan Multimodal Embeddings G1 G1 Ya Ya Tidak Tidak Tidak
Anthropic Claude 3 Haiku Tidak Tidak Tidak Ya Ya
Cohere Command Ya Tidak Tidak Tidak Tidak
Cohere Command Light Ya Tidak Tidak Tidak Tidak
Meta Llama 2 13B Ya Tidak Tidak Tidak Tidak
Meta Llama 2 70B Ya Tidak Tidak Tidak Tidak

Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Siapkan kumpulan data pelatihan dan validasi untuk model kustom Anda

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, yang setiap barisnya adalah JSON objek yang sesuai dengan catatan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih dan catatan di dalamnya harus sesuai dengan persyaratan ukuran.

Formatnya tergantung pada metode kustomisasi dan modalitas input dan output model. Pilih tab yang sesuai dengan metode pilihan Anda dan ikuti langkah-langkahnya:

Fine-tuning: Text-to-text

Untuk text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Setiap JSON objek adalah sampel yang berisi a prompt dan completion bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap JSON objek adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam JPEG atau PNG format.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan IAM kebijakan yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan penyesuaian model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Continued Pre-training: Text-to-text

Untuk melaksanakan Pra-pelatihan Lanjutan pada suatu text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional. Karena Pra-pelatihan Lanjutan melibatkan data yang tidak berlabel, setiap JSON baris adalah sampel yang hanya berisi bidang. input Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Berikut ini adalah contoh item yang bisa ada dalam data pelatihan.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

Untuk menyempurnakan text-to-text model menggunakan format pesan satu putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam JSONL format. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

  • system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.

  • messages: Sebuah array objek pesan, masing-masing berisi:

    • role: Entah user atau assistant

    • content: Isi teks pesan

Aturan

  • messagesArray harus berisi 2 pesan

  • Pesan pertama harus memiliki role pengguna

  • Pesan terakhir harus memiliki role asisten

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Contoh

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

Untuk menyempurnakan text-to-text model menggunakan format pesan multi-putaran, siapkan kumpulan data pelatihan dan validasi opsional. Kedua file data harus dalam JSONL format. Setiap baris menentukan sampel data lengkap dalam format json; dan setiap sampel data harus diformat menjadi 1 baris (hapus semua '\n' dalam setiap sampel). Satu baris dengan beberapa sampel data atau membagi sampel data melalui beberapa baris tidak akan berfungsi.

Bidang

  • system(opsional): String yang berisi pesan sistem yang menetapkan konteks untuk percakapan.

  • messages: Sebuah array objek pesan, masing-masing berisi:

    • role: Entah user atau assistant

    • content: Isi teks pesan

Aturan

  • messagesArray harus berisi 2 pesan

  • Pesan pertama harus memiliki role pengguna

  • Pesan terakhir harus memiliki role asisten

  • Pesan harus bergantian antara user dan assistant peran.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Contoh

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Pilih tab untuk melihat persyaratan kumpulan data pelatihan dan validasi untuk model:

Amazon Titan Text Premier
Deskripsi Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096
Jumlah token input dan output saat ukuran batch 2, 3, atau 4 N/A
Kuota karakter per sampel dalam dataset Kuota Token x 6
Ukuran file kumpulan data pelatihan 1 GB
Ukuran file dataset validasi 100 MB
Amazon Titan Text G1 - Express
Deskripsi Maksimum (Lanjutan Pra-pelatihan) Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 4,096 4,096
Jumlah token input dan output saat ukuran batch 2, 3, atau 4 2,048 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6 Kuota Token x 6
Ukuran file kumpulan data pelatihan 10 GB 1 GB
Ukuran file dataset validasi 100 MB 100 MB
Amazon Titan Text G1 - Lite
Deskripsi Maksimum (Lanjutan Pra-pelatihan) Maksimum (Fine-tuning)
Jumlah token input dan output saat ukuran batch adalah 1 atau 2 4,096 4,096
Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 2,048 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6 Kuota Token x 6
Ukuran file kumpulan data pelatihan 10 GB 1 GB
Ukuran file dataset validasi 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Deskripsi Minimum (Fine-tuning) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 3 1,024
Catatan dalam kumpulan data pelatihan 5 10.000
Ukuran gambar masukan 0 50 MB
Input tinggi gambar dalam piksel 512 4,096
Masukan lebar gambar dalam piksel 512 4,096
Masukan total piksel gambar 0 12,582,912
Rasio aspek gambar masukan 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Deskripsi Minimum (Fine-tuning) Maksimum (Fine-tuning)
Panjang prompt teks dalam sampel pelatihan, dalam karakter 0 2,560
Catatan dalam kumpulan data pelatihan 1.000 500.000
Ukuran gambar masukan 0 5 MB
Input tinggi gambar dalam piksel 128 4096
Masukan lebar gambar dalam piksel 128 4096
Masukan total piksel gambar 0 12,528,912
Rasio aspek gambar masukan 1:4 4:1
Cohere Command
Deskripsi Maksimum (Fine-tuning)
Token masukan 4,096
Token keluaran 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6
Catatan dalam kumpulan data pelatihan 10.000
Merekam dalam kumpulan data validasi 1.000
Meta Llama 2
Deskripsi Maksimum (Fine-tuning)
Token masukan 4,096
Token keluaran 2,048
Kuota karakter per sampel dalam dataset Kuota Token x 6