Jenis file dataset dan format data input

Penyetelan berbasis instruksi menggunakan kumpulan data berlabel untuk meningkatkan kinerja tugas pemrosesan bahasa alami (NLP) yang telah dilatih sebelumnya LLMs . Contoh berlabel diformat sebagai pasangan prompt respons dan diungkapkan sebagai instruksi.

Untuk mempelajari jenis file kumpulan data yang didukung, lihatJenis file dataset yang didukung.

Untuk mempelajari tentang format data input, lihatFormat data input untuk fine-tuning berbasis instruksi.

Jenis file dataset yang didukung

Autopilot mendukung kumpulan data fine-tuning berbasis instruksi yang diformat sebagai file CSV (default) atau sebagai file Parket.

CSV (nilai dipisahkan koma) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia, yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.
Parket adalah format file biner berbasis kolom di mana data disimpan dan diproses lebih efisien daripada dalam format file yang dapat dibaca manusia seperti CSV. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.

catatan

Dataset dapat terdiri dari beberapa file, yang masing-masing harus mematuhi template tertentu. Untuk informasi tentang cara memformat data input Anda, lihatFormat data input untuk fine-tuning berbasis instruksi.

Format data input untuk fine-tuning berbasis instruksi

Setiap file dalam kumpulan data harus mematuhi format berikut:

Dataset harus berisi tepat dua kolom yang dipisahkan koma dan diberi nama, dan. input output Autopilot tidak mengizinkan kolom tambahan.
inputKolom berisi petunjuk, dan yang sesuai output berisi jawaban yang diharapkan. Keduanya input dan output dalam format string.

Contoh berikut menggambarkan format data input untuk fine-tuning berbasis instruksi di Autopilot.


input,output
"<prompt text>","<expected generated text>"

catatan

Kami merekomendasikan penggunaan kumpulan data dengan minimal 1000 baris untuk memastikan pembelajaran dan kinerja model yang optimal.

Selain itu, Autopilot menetapkan batas maksimum jumlah baris dalam kumpulan data dan panjang konteks berdasarkan jenis model yang digunakan.

Batas jumlah baris dalam kumpulan data berlaku untuk jumlah kumulatif baris di semua file dalam kumpulan data, termasuk beberapa file. Jika ada dua jenis saluran yang ditentukan (satu untuk pelatihan dan satu untuk validasi), batas tersebut berlaku untuk jumlah total baris di semua kumpulan data dalam kedua saluran. Ketika jumlah baris melebihi ambang batas, pekerjaan gagal dengan kesalahan validasi.
Ketika panjang input atau output baris dalam kumpulan data melebihi batas yang ditetapkan pada konteks model bahasa, maka secara otomatis terpotong. Jika lebih dari 60% baris dalam kumpulan data terpotong, baik dalam input atau outputnya, Autopilot gagal dalam pekerjaan dengan kesalahan validasi.

Tabel berikut menyajikan batas-batas untuk setiap model.

JumpStart ID Model	`BaseModelName`dalam permintaan API	Batas Baris	Batas Panjang Konteks
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10.000 baris	1024 token
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10.000 baris	1024 token
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10.000 baris	1024 token
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1.000 baris	1024 token
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1.000 baris	1024 token
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10.000 baris	1024 token
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10.000 baris	1024 token
huggingface-text2text-flan-t5-large	`FlanT5L`	10.000 baris	1024 token
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10.000 baris	1024 token
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10.000 baris	1024 token
meta-textgeneration-llama-2-7b	`Llama2-7B`	10.000 baris	2048 token
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10.000 baris	2048 token
meta-textgeneration-llama-2-13b	`Llama2-13B`	7.000 baris	2048 token
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7.000 baris	2048 token
huggingface-llm-mistral-7b	`Mistral7B`	10.000 baris	2048 token
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10.000 baris	2048 token
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10.000 baris	1024 token
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10.000 baris	1024 token

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Model yang didukung

Hyperparameter