Model bahasa besar yang didukung untuk fine-tuning - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Model bahasa besar yang didukung untuk fine-tuning

Menggunakan AutopilotAPI, pengguna dapat menyempurnakan model bahasa besar (LLMs) yang didukung oleh Amazon. SageMaker JumpStart

catatan

Untuk model fine-tuning yang memerlukan penerimaan perjanjian lisensi pengguna akhir, Anda harus secara eksplisit menyatakan penerimaan saat membuat pekerjaan AutoML Anda. EULA Perhatikan bahwa setelah menyempurnakan model yang telah dilatih sebelumnya, bobot model asli diubah, sehingga Anda tidak perlu menerima nanti EULA saat menerapkan model yang disetel dengan baik.

Untuk informasi tentang cara menerima EULA saat membuat pekerjaan fine-tuning menggunakan AutoML, lihat. API Cara mengatur EULA penerimaan saat menyempurnakan model menggunakan AutoML API

Anda dapat menemukan detail lengkap setiap model dengan mencari ID JumpStart Model Anda di tabel model berikut, lalu mengikuti tautan di kolom Sumber. Detail ini mungkin termasuk bahasa yang didukung oleh model, bias yang mungkin ditunjukkannya, kumpulan data yang digunakan untuk fine-tuning, dan banyak lagi.

Tabel berikut mencantumkan JumpStart model yang didukung yang dapat Anda sesuaikan dengan pekerjaan AutoML.

JumpStart ID Model BaseModelNamedalam API permintaan Deskripsi
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B adalah 2,8 miliar parameter instruksi mengikuti model bahasa besar berdasarkan pythia-2.8b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B adalah model bahasa besar mengikuti instruksi parameter 6,9 miliar berdasarkan pythia-6.9b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B adalah 12 miliar parameter instruksi mengikuti model bahasa besar berdasarkan pythia-12b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B adalah model bahasa besar kausal parameter 7 miliar yang dilatih pada 1.500 miliar token yang ditingkatkan dengan corpora yang dikuratori. Falcon-7B dilatih hanya pada data bahasa Inggris dan Prancis, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Karena model ini dilatih pada sejumlah besar data web, ia membawa stereotip dan bias yang biasa ditemukan secara online.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct adalah model bahasa besar kausal parameter 7 miliar yang dibangun di atas Falcon 7B dan disetel dengan baik pada campuran 250 juta token dari kumpulan data obrolan/instruksi. Falcon 7B Instruct sebagian besar dilatih pada data bahasa Inggris, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B adalah model bahasa besar kausal parameter 40 miliar yang dilatih pada 1.000 miliar token yang ditingkatkan dengan corpora yang dikuratori. Ini dilatih sebagian besar dalam bahasa Inggris, Jerman, Spanyol, dan Prancis, dengan kemampuan terbatas dalam bahasa Italia, Portugis, Polandia, Belanda, Rumania, Ceko, dan Swedia. Itu tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct adalah model bahasa besar kausal parameter 40 miliar yang dibangun di atas Falcon40B dan disetel dengan baik pada campuran Baize. Ini sebagian besar dilatih pada data bahasa Inggris dan Prancis, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.

huggingface-text2text-flan-t5-large FlanT5L

Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disetel dengan baik pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 L adalah 780 juta parameter model bahasa besar yang dilatih pada berbagai bahasa. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 L dalam detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.

huggingface-text2text-flan-t5-xl FlanT5XL

Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disetel dengan baik pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 XL adalah model bahasa besar 3 miliar parameter yang dilatih pada berbagai bahasa. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 XL dalam detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.

huggingface-text2text-flan-t5-xxll FlanT5XXL

Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disetel dengan baik pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 XXL adalah model parameter 11 miliar. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 XXL di detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-7B adalah model parameter 7 miliar yang ditujukan untuk penggunaan bahasa Inggris dan dapat disesuaikan untuk berbagai tugas pembuatan bahasa alami.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-7B adalah model obrolan parameter 7 miliar yang dioptimalkan untuk kasus penggunaan dialog.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-13B adalah model parameter 13 miliar yang ditujukan untuk penggunaan bahasa Inggris dan dapat disesuaikan untuk berbagai tugas pembuatan bahasa alami.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-13B adalah model obrolan parameter 13 miliar yang dioptimalkan untuk kasus penggunaan dialog.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B adalah kode tujuh miliar parameter dan model pembuatan teks bahasa Inggris tujuan umum. Ini dapat digunakan dalam berbagai kasus penggunaan termasuk ringkasan teks, klasifikasi, penyelesaian teks, atau penyelesaian kode.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct adalah versi Mistral 7B yang disetel dengan baik untuk kasus penggunaan percakapan. Itu khusus menggunakan berbagai kumpulan data percakapan yang tersedia untuk umum dalam bahasa Inggris.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT7B adalah model bahasa besar transformator gaya decoder dengan 6,7 miliar parameter, pra-dilatih dari awal pada 1 triliun token teks dan kode bahasa Inggris. Ini disiapkan untuk menangani panjang konteks yang panjang.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT7B Instruct adalah model untuk instruksi bentuk pendek berikut tugas-tugas. Ini dibangun dengan menyempurnakan MPT 7B pada kumpulan data yang berasal dari dataset yang berasal dari dataset databricks-dolly-15k dan Anthropic Helpful and Harmless (HH-). RLHF