Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jenis file dataset dan format data input
Penyetelan berbasis instruksi menggunakan kumpulan data berlabel untuk meningkatkan kinerja tugas pemrosesan bahasa alami (NLP) yang telah dilatih sebelumnya LLMs . Contoh berlabel diformat sebagai pasangan prompt respons dan diungkapkan sebagai instruksi.
Untuk mempelajari jenis file kumpulan data yang didukung, lihatJenis file dataset yang didukung.
Untuk mempelajari tentang format data input, lihatFormat data input untuk fine-tuning berbasis instruksi.
Jenis file dataset yang didukung
Autopilot mendukung kumpulan data fine-tuning berbasis instruksi yang diformat sebagai file CSV (default) atau sebagai file Parket.
-
CSV (nilai dipisahkan koma) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia, yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.
-
Parket adalah format file biner berbasis kolom di mana data disimpan dan diproses lebih efisien daripada dalam format file yang dapat dibaca manusia seperti CSV. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.
catatan
Dataset dapat terdiri dari beberapa file, yang masing-masing harus mematuhi template tertentu. Untuk informasi tentang cara memformat data input Anda, lihatFormat data input untuk fine-tuning berbasis instruksi.
Format data input untuk fine-tuning berbasis instruksi
Setiap file dalam kumpulan data harus mematuhi format berikut:
-
Dataset harus berisi tepat dua kolom yang dipisahkan koma dan diberi nama, dan.
input
output
Autopilot tidak mengizinkan kolom tambahan. -
input
Kolom berisi petunjuk, dan yang sesuaioutput
berisi jawaban yang diharapkan. Keduanyainput
danoutput
dalam format string.
Contoh berikut menggambarkan format data input untuk fine-tuning berbasis instruksi di Autopilot.
input,output "<prompt text>","<expected generated text>"
catatan
Kami merekomendasikan penggunaan kumpulan data dengan minimal 1000 baris untuk memastikan pembelajaran dan kinerja model yang optimal.
Selain itu, Autopilot menetapkan batas maksimum jumlah baris dalam kumpulan data dan panjang konteks berdasarkan jenis model yang digunakan.
-
Batas jumlah baris dalam kumpulan data berlaku untuk jumlah kumulatif baris di semua file dalam kumpulan data, termasuk beberapa file. Jika ada dua jenis saluran yang ditentukan (satu untuk pelatihan dan satu untuk validasi), batas tersebut berlaku untuk jumlah total baris di semua kumpulan data dalam kedua saluran. Ketika jumlah baris melebihi ambang batas, pekerjaan gagal dengan kesalahan validasi.
-
Ketika panjang input atau output baris dalam kumpulan data melebihi batas yang ditetapkan pada konteks model bahasa, maka secara otomatis terpotong. Jika lebih dari 60% baris dalam kumpulan data terpotong, baik dalam input atau outputnya, Autopilot gagal dalam pekerjaan dengan kesalahan validasi.
Tabel berikut menyajikan batas-batas untuk setiap model.
JumpStart ID Model | BaseModelName dalam permintaan API |
Batas Baris | Batas Panjang Konteks |
---|---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
10.000 baris | 1024 token |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
10.000 baris | 1024 token |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
10.000 baris | 1024 token |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
1.000 baris | 1024 token |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
1.000 baris | 1024 token |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
10.000 baris | 1024 token |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
10.000 baris | 1024 token |
huggingface-text2text-flan-t5-large | FlanT5L |
10.000 baris | 1024 token |
huggingface-text2text-flan-t5-xl | FlanT5XL |
10.000 baris | 1024 token |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
10.000 baris | 1024 token |
meta-textgeneration-llama-2-7b | Llama2-7B |
10.000 baris | 2048 token |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
10.000 baris | 2048 token |
meta-textgeneration-llama-2-13b | Llama2-13B |
7.000 baris | 2048 token |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
7.000 baris | 2048 token |
huggingface-llm-mistral-7b | Mistral7B |
10.000 baris | 2048 token |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
10.000 baris | 2048 token |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
10.000 baris | 1024 token |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
10.000 baris | 1024 token |