Jenis file dataset dan format data input - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jenis file dataset dan format data input

Penyetelan berbasis instruksi menggunakan kumpulan data berlabel untuk meningkatkan kinerja tugas pemrosesan bahasa alami (NLP) yang telah dilatih sebelumnya LLMs . Contoh berlabel diformat sebagai pasangan prompt respons dan diungkapkan sebagai instruksi.

Untuk mempelajari jenis file kumpulan data yang didukung, lihatJenis file dataset yang didukung.

Untuk mempelajari tentang format data input, lihatFormat data input untuk fine-tuning berbasis instruksi.

Jenis file dataset yang didukung

Autopilot mendukung kumpulan data fine-tuning berbasis instruksi yang diformat sebagai file CSV (default) atau sebagai file Parket.

  • CSV (nilai dipisahkan koma) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia, yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.

  • Parket adalah format file biner berbasis kolom di mana data disimpan dan diproses lebih efisien daripada dalam format file yang dapat dibaca manusia seperti CSV. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.

catatan

Dataset dapat terdiri dari beberapa file, yang masing-masing harus mematuhi template tertentu. Untuk informasi tentang cara memformat data input Anda, lihatFormat data input untuk fine-tuning berbasis instruksi.

Format data input untuk fine-tuning berbasis instruksi

Setiap file dalam kumpulan data harus mematuhi format berikut:

  • Dataset harus berisi tepat dua kolom yang dipisahkan koma dan diberi nama, dan. input output Autopilot tidak mengizinkan kolom tambahan.

  • inputKolom berisi petunjuk, dan yang sesuai output berisi jawaban yang diharapkan. Keduanya input dan output dalam format string.

Contoh berikut menggambarkan format data input untuk fine-tuning berbasis instruksi di Autopilot.

input,output "<prompt text>","<expected generated text>"
catatan

Kami merekomendasikan penggunaan kumpulan data dengan minimal 1000 baris untuk memastikan pembelajaran dan kinerja model yang optimal.

Selain itu, Autopilot menetapkan batas maksimum jumlah baris dalam kumpulan data dan panjang konteks berdasarkan jenis model yang digunakan.

  • Batas jumlah baris dalam kumpulan data berlaku untuk jumlah kumulatif baris di semua file dalam kumpulan data, termasuk beberapa file. Jika ada dua jenis saluran yang ditentukan (satu untuk pelatihan dan satu untuk validasi), batas tersebut berlaku untuk jumlah total baris di semua kumpulan data dalam kedua saluran. Ketika jumlah baris melebihi ambang batas, pekerjaan gagal dengan kesalahan validasi.

  • Ketika panjang input atau output baris dalam kumpulan data melebihi batas yang ditetapkan pada konteks model bahasa, maka secara otomatis terpotong. Jika lebih dari 60% baris dalam kumpulan data terpotong, baik dalam input atau outputnya, Autopilot gagal dalam pekerjaan dengan kesalahan validasi.

Tabel berikut menyajikan batas-batas untuk setiap model.

JumpStart ID Model BaseModelNamedalam permintaan API Batas Baris Batas Panjang Konteks
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10.000 baris 1024 token
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10.000 baris 1024 token
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10.000 baris 1024 token
huggingface-llm-falcon-7b-bf16 Falcon7B 1.000 baris 1024 token
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1.000 baris 1024 token
huggingface-llm-falcon-40b-bf16 Falcon40B 10.000 baris 1024 token
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10.000 baris 1024 token
huggingface-text2text-flan-t5-large FlanT5L 10.000 baris 1024 token
huggingface-text2text-flan-t5-xl FlanT5XL 10.000 baris 1024 token
huggingface-text2text-flan-t5-xxll FlanT5XXL 10.000 baris 1024 token
meta-textgeneration-llama-2-7b Llama2-7B 10.000 baris 2048 token
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10.000 baris 2048 token
meta-textgeneration-llama-2-13b Llama2-13B 7.000 baris 2048 token
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7.000 baris 2048 token
huggingface-llm-mistral-7b Mistral7B 10.000 baris 2048 token
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10.000 baris 2048 token
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10.000 baris 1024 token
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10.000 baris 1024 token