

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Siapkan data untuk menyempurnakan model Anda
<a name="model-customization-prepare"></a>

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat `.jsonl` file, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda setidaknya harus menyiapkan kumpulan data pelatihan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih. Catatan di dalamnya harus sesuai dengan persyaratan ukuran tergantung model Anda. 

Untuk informasi tentang persyaratan model, lihat. [Persyaratan model untuk kumpulan data pelatihan dan validasi](#model-training-validation-requirements) Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota **Jumlah catatan pelatihan dan validasi di titik akhir [Amazon](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) Bedrock dan** kuota di. Referensi Umum AWS

Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut. 
+ Jenis pekerjaan kustomisasi fine-tuning.
+ Modalitas input dan output data.

[Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

## Modalitas yang didukung untuk fine-tuning
<a name="model-customization-data-support"></a>

Bagian berikut menjelaskan berbagai kemampuan fine-tuning yang didukung oleh masing-masing model, yang diatur oleh modalitas input dan outputnya. [Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

**Text-to-Text model**

Text-to-Text model dapat disetel dengan baik untuk berbagai tugas berbasis teks, termasuk aplikasi percakapan dan non-percakapan. Untuk informasi tentang menyiapkan data untuk Text-to-Text model fine-tuning, lihat. [Siapkan data untuk model text-to-text fine-tuning](#preparing-text-data) 

Model non-percakapan berikut dioptimalkan untuk tugas-tugas seperti meringkas, terjemahan, dan menjawab pertanyaan:
+ Amazon Titan Text G1 - Express
+ Amazon Titan Text G1 - Lite
+ Amazon Titan Teks Premier
+ Cohere Command
+ Cohere Command Light
+ Meta Llama 3.1 8B Instruct
+ Meta Llama 3.1 70B Instruct

Model percakapan berikut dirancang untuk interaksi satu putaran dan multi-putaran. Jika model menggunakan Converse API, kumpulan data fine-tuning Anda harus mengikuti format pesan Converse API dan menyertakan pesan sistem, pengguna, dan asisten. Sebagai contoh, lihat [Siapkan data untuk model text-to-text fine-tuning](#preparing-text-data). Untuk informasi selengkapnya tentang operasi Converse API, lihat[Melakukan percakapan dengan operasi Converse API](conversation-inference.md).
+ Antropik Claude 3 Haiku
+ MetaLlama 3.2 1B Instruct(Format API Converse)
+ MetaLlama 3.2 3B Instruct(Format API Converse)
+ MetaLlama 3.2 11B InstructVisi (Format API Converse)
+ MetaLlama 3.2 90B InstructVisi (Format API Converse)
+ MetaInstruksi Visi Llama 3.3 70B (Format API Converse)

**Text-Image-to-Text & Text-to-Image model** s

Model berikut mendukung fine-tuning untuk pembuatan gambar dan pemrosesan teks-gambar. Model-model ini memproses atau menghasilkan gambar berdasarkan input tekstual, atau menghasilkan teks berdasarkan input tekstual dan gambar. Untuk informasi tentang menyiapkan data untuk model fine-tuning Text-Image-to-Text & Text-to-Image model, lihat. [Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks](#preparing-image-text-data)
+ Amazon Titan Image Generator G1 V1
+ MetaLlama 3.2 11B InstructVisi
+ MetaLlama 3.2 90B InstructVisi
+ MetaInstruksi Visi Llama 3.3 70B

**Gambar-untuk-Embeddings**

Model berikut mendukung fine-tuning untuk tugas-tugas seperti klasifikasi dan pengambilan. Model-model ini menghasilkan representasi numerik (embeddings) dari input gambar. Untuk informasi tentang menyiapkan data untuk Image-to-Embeddings model fine-tuning, lihat. [Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan](#preparing-image-generation-data)
+ Amazon Titan Multimodal Embeddings G1
+ Amazon Titan Image Generator G1 V1

## Persyaratan model untuk kumpulan data pelatihan dan validasi
<a name="model-training-validation-requirements"></a>

Bagian berikut mencantumkan persyaratan untuk kumpulan data pelatihan dan validasi untuk model. [Untuk informasi tentang batasan kumpulan data untuk model, lihat Amazon Nova Model fine-tuning. Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

### Amazon Titan Teks Premier
<a name="quotas-cm-titan-premier"></a>


****  

| Deskripsi | Maksimum (Fine-tuning) | 
| --- | --- | 
| Jumlah token input dan output saat ukuran batch adalah 1 | 4,096 | 
| Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 | N/A | 
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) | 
| Ukuran file kumpulan data pelatihan | 1 GB | 
| Ukuran file dataset validasi | 100 MB | 

### Amazon Titan Text G1 - Express
<a name="quotas-cm-titan-text"></a>


****  

| Deskripsi | Maksimum (Fine-tuning) | 
| --- | --- | 
| Jumlah token input dan output saat ukuran batch adalah 1 | 4,096 | 
| Jumlah token input dan output saat ukuran batch adalah 2, 3, atau 4 | 2,048 | 
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) | 
| Ukuran file kumpulan data pelatihan | 1 GB | 
| Ukuran file dataset validasi | 100 MB | 

### Amazon Titan Text G1 - Lite
<a name="quotas-cm-titan-text-lite"></a>


****  

| Deskripsi | Maksimum (Fine-tuning) | 
| --- | --- | 
| Jumlah token input dan output saat ukuran batch adalah 1 atau 2 | 4,096 | 
| Jumlah token input dan output saat ukuran batch adalah 3, 4, 5, atau 6 | 2,048 | 
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) | 
| Ukuran file kumpulan data pelatihan | 1 GB | 
| Ukuran file dataset validasi | 100 MB | 

### Amazon Titan Image Generator G1 V1
<a name="quotas-cm-titan-image"></a>


****  

| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) | 
| --- | --- | --- | 
| Panjang prompt teks dalam sampel pelatihan, dalam karakter | 3 | 1,024 | 
| Catatan dalam kumpulan data pelatihan | 5 | 10.000 | 
| Ukuran gambar masukan | 0 | 50 MB | 
| Input tinggi gambar dalam piksel | 512 | 4,096 | 
| Masukan lebar gambar dalam piksel | 512 | 4,096 | 
| Masukan total piksel gambar | 0 | 12,582,912 | 
| Rasio aspek gambar masukan | 1:4 | 4:1 | 

### Amazon Titan Multimodal Embeddings G1
<a name="quotas-cm-titan-mm-embed"></a>


****  

| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) | 
| --- | --- | --- | 
| Panjang prompt teks dalam sampel pelatihan, dalam karakter | 0 | 2,560 | 
| Catatan dalam kumpulan data pelatihan | 1.000 | 500.000 | 
| Ukuran gambar masukan | 0 | 5 MB | 
| Input tinggi gambar dalam piksel | 128 | 4096 | 
| Masukan lebar gambar dalam piksel | 128 | 4096 | 
| Masukan total piksel gambar | 0 | 12,528,912 | 
| Rasio aspek gambar masukan | 1:4 | 4:1 | 

### Meta Llama 3.1
<a name="quotas-cm-meta-llama-3-1"></a>


****  

| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) | 
| --- | --- | --- | 
| Token masukan | 0 | 16.000 | 
| Token keluaran | 0 | 16.000 | 
| Kuota karakter per sampel dalam dataset | 0 | Kuota token x 6 (perkiraan) | 
| Jumlah token Input dan Output | 0 | 16.000 | 
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan kuota layanan) | 

### Meta Llama 3.2
<a name="quotas-cm-meta-llama-3-2"></a>

Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:`gif`,`jpeg`,`png`, dan`webp`. Untuk memperkirakan image-to-token konversi selama fine-tuning model ini, Anda dapat menggunakan rumus ini sebagai perkiraan:. `Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601` Gambar dikonversi menjadi sekitar 1.601 hingga 6.404 token berdasarkan ukurannya.


****  

| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) | 
| --- | --- | --- | 
| Jumlah token Input dan Output | 0 | 16.000 (10000 untuk Meta Llama 3.2 90B) | 
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan kuota layanan) | 
| Masukan ukuran gambar untuk Meta Llama 11B and 90B instruct model) | 0 | 10 MB | 
| Masukkan tinggi gambar dalam piksel untuk Meta Llama 11B and 90B instruct model | 10 | 8192 | 
| Masukan lebar gambar dalam piksel untuk Meta Llama 11B and 90B90B instruct model | 10 | 8192 | 

### Meta Llama 3.3
<a name="quotas-cm-meta-llama-3-3"></a>


****  

| Deskripsi | Minimum (Penyetelan halus) | Maksimum (Fine-tuning) | 
| --- | --- | --- | 
| Jumlah token Input dan Output | 0 | 16000 | 
| Jumlah catatan pelatihan dan validasi | 100 | 10.000 (dapat disesuaikan menggunakan Service Quotas) | 

### CohereCommand
<a name="quotas-cm-cohere-command"></a>


****  

| Deskripsi | Maksimum (Fine-tuning) | 
| --- | --- | 
| Token masukan | 4,096 | 
| Token keluaran | 2,048 | 
| Kuota karakter per sampel dalam dataset | Kuota token x 6 (perkiraan) | 
| Catatan dalam kumpulan data pelatihan | 10.000 | 
| Merekam dalam kumpulan data validasi | 1.000 | 

### Antropik Claude 3 Haiku
<a name="anthropic-claude-3-haiku"></a>


****  

| Deskripsi | Maksimum (Fine-tuning) | 
| --- | --- | 
| Jumlah catatan minimum | 32 | 
| Catatan pelatihan maksimum | 10.000 | 
| Catatan validasi maksimum | 1.000 | 
| Total catatan maksimum | 10.000 (dapat disesuaikan menggunakan kuota layanan) | 
| Token maksimum | 32.000 | 
| Ukuran dataset pelatihan maksimum | 10 GB | 
| Ukuran dataset validasi maksimum | 1 GB | 

## Siapkan data untuk model text-to-text fine-tuning
<a name="preparing-text-data"></a>

**catatan**  
[Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

Untuk text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi bidang terstruktur yang dirancang untuk memandu model menuju menghasilkan output tekstual yang diinginkan berdasarkan prompt tekstual yang disediakan. Format data bervariasi tergantung pada kasus penggunaan, secara luas dikategorikan ke dalam kasus penggunaan non-percakapan dan percakapan.

------
#### [ Non-conversational tasks ]

Tugas non-percakapan melibatkan menghasilkan output tunggal untuk input yang diberikan. Setiap sampel dataset mencakup `prompt` bidang yang berisi teks input dan `completion` bidang dengan output yang diharapkan. Format ini mendukung berbagai tugas seperti menjawab pertanyaan, meringkas, terjemahan, penyelesaian teks, dan ekstraksi informasi.

Contoh format

```
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}
```

Gunakan sekitar 6 karakter per token untuk memperkirakan jumlah token untuk merencanakan ukuran dataset.

------
#### [ Converse API format (Single turn and Multi turn) ]

Untuk menggunakan Converse API, Anda memanggil `ConverseStream` operasi `Converse` atau untuk mengirim pesan ke model. Untuk menelepon`Converse`, Anda memerlukan izin untuk `bedrock:InvokeModel` operasi. Untuk menelepon`ConverseStream`, Anda memerlukan izin untuk `bedrock:InvokeModelWithResponseStream` operasi. Untuk informasi selengkapnya, lihat [Menggunakan API Converse ini](conversation-inference-call.md). Untuk informasi selengkapnya tentang operasi Converse API, lihat [Melakukan percakapan dengan operasi Converse API](conversation-inference.md)

Contoh format

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}
```

------
#### [ Anthropic Claude 3 Haiku: Single-turn conversations ]

Tugas percakapan satu putaran melibatkan pertukaran terisolasi, di mana model menghasilkan respons hanya berdasarkan input pengguna saat ini tanpa mempertimbangkan konteks sebelumnya. Setiap sampel dataset menggunakan array pesan, dengan peran bergantian dari dan. `user` `assistant`

format

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
```

Contoh

```
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
```

------
#### [ Anthropic Claude 3 Haiku: Multi-turn conversations ]

Tugas percakapan multi-giliran melibatkan dialog yang diperluas di mana model harus menghasilkan respons sambil mempertahankan konteks pertukaran sebelumnya. Format ini menangkap sifat dinamis dari tugas interaktif, seperti dukungan pelanggan atau diskusi kompleks.

format

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
```

Contoh

```
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}  
```

------

## Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks
<a name="preparing-image-text-data"></a>

**catatan**  
[Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

Untuk image-text-to-text model fine-tuning, setiap objek JSON adalah sampel yang berisi percakapan yang terstruktur sebagai `messages` array, yang terdiri dari objek JSON bergantian yang mewakili input pengguna dan respons asisten. Masukan pengguna dapat mencakup teks dan gambar, sementara tanggapan asisten selalu tekstual. Struktur ini mendukung alur percakapan single-turn dan multi-turn, memungkinkan model untuk menangani beragam tugas secara efektif. Format gambar yang didukung untuk Meta Llama-3.2 11B Vision Instruct dan Meta Llama-3.2 90B Vision Instruct termasuk:`gif`,`jpeg`,`png`, dan`webp`.

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di [Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3](model-customization-iam-role.md#model-customization-iam-role-s3) peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

**Percakapan satu putaran**

Setiap objek JSON untuk percakapan satu putaran terdiri dari pesan pengguna dan pesan asisten. Pesan pengguna menyertakan bidang peran yang disetel ke *pengguna* dan bidang *konten* yang berisi array dengan `type` bidang (*teks* atau *gambar*) yang menjelaskan modalitas input. Untuk input teks, `content` bidang menyertakan `text` bidang dengan pertanyaan atau prompt pengguna. Untuk input gambar, `content` bidang menentukan gambar `format` (misalnya, *jpeg*, *png*) dan `source` dengan `uri` menunjuk ke lokasi Amazon S3 gambar. `uri`Ini mewakili jalur unik ke gambar yang disimpan dalam bucket Amazon S3, biasanya dalam format. `s3://<bucket-name>/<path-to-file>` Pesan asisten menyertakan `role` bidang yang disetel ke *asisten* dan `content` bidang yang berisi larik dengan `type` bidang yang disetel ke *teks* dan `text` bidang yang berisi respons yang dihasilkan asisten.

Contoh format

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}
```

**Percakapan multi-giliran**

Setiap objek JSON untuk percakapan multi-putaran berisi urutan pesan dengan peran bergantian, di mana pesan pengguna dan pesan asisten disusun secara konsisten untuk memungkinkan pertukaran yang koheren. Pesan pengguna menyertakan `role` bidang yang disetel ke *pengguna* dan `content` bidang yang menjelaskan modalitas input. Untuk input teks, `content` bidang menyertakan `text` bidang dengan pertanyaan atau tindak lanjut pengguna, sedangkan untuk input gambar, bidang ini menentukan gambar `format` dan `source` dengan `uri` menunjuk ke lokasi Amazon S3 gambar. Ini `uri` berfungsi sebagai pengenal unik dalam format s3://<bucket-name>/< path-to-file > dan memungkinkan model untuk mengakses gambar dari bucket Amazon S3 yang ditunjuk. Pesan asisten menyertakan `role` bidang yang disetel ke *asisten* dan `content` bidang yang berisi larik dengan `type` bidang yang disetel ke *teks* dan `text` bidang yang berisi respons yang dihasilkan asisten. Percakapan dapat mencakup beberapa pertukaran, memungkinkan asisten untuk mempertahankan konteks dan memberikan respons yang koheren di seluruh.

Contoh format

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}
```

## Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan
<a name="preparing-image-generation-data"></a>

**catatan**  
Amazon Novamodel memiliki persyaratan fine-tuning yang berbeda. Untuk menyempurnakan model ini, ikuti instruksi di model [Amazon NovaFine-tuning](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

Untuk text-to-image atau image-to-embedding model, siapkan dataset pelatihan. Kumpulan data validasi tidak didukung. Setiap objek JSON adalah sampel yang berisi`image-ref`, Amazon S3 URI untuk gambar, dan `caption` yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG.

```
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
```

Berikut ini adalah item contoh:

```
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
```

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di [Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3](model-customization-iam-role.md#model-customization-iam-role-s3) peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.