Model bahasa besar yang didukung untuk fine-tuning

Mode fokus

Model bahasa besar yang didukung untuk fine-tuning - Amazon SageMaker AI

Menggunakan Autopilot API, pengguna dapat menyempurnakan model bahasa besar (LLMs) yang didukung oleh Amazon. SageMaker JumpStart

catatan

Untuk model fine-tuning yang memerlukan penerimaan perjanjian lisensi pengguna akhir, Anda harus secara eksplisit menyatakan penerimaan EULA saat membuat pekerjaan AutoML Anda. Perhatikan bahwa setelah menyempurnakan model yang telah dilatih sebelumnya, bobot model asli diubah, sehingga Anda tidak perlu menerima EULA nanti saat menerapkan model yang disetel dengan baik.

Untuk informasi tentang cara menerima EULA saat membuat pekerjaan fine-tuning menggunakan AutoML API, lihat. Cara mengatur penerimaan EULA saat menyempurnakan model menggunakan AutoML API

Anda dapat menemukan detail lengkap setiap model dengan mencari ID JumpStart Model Anda di tabel model berikut, lalu mengikuti tautan di kolom Sumber. Detail ini mungkin termasuk bahasa yang didukung oleh model, bias yang mungkin ditunjukkannya, kumpulan data yang digunakan untuk fine-tuning, dan banyak lagi.

Tabel berikut mencantumkan JumpStart model yang didukung yang dapat Anda sesuaikan dengan pekerjaan AutoML.

JumpStart ID Model	`BaseModelName`dalam permintaan API	Deskripsi
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	Dolly 3B adalah 2,8 miliar parameter instruksi mengikuti model bahasa besar berdasarkan pythia-2.8b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	Dolly 7B adalah model bahasa besar mengikuti instruksi parameter 6,9 miliar berdasarkan pythia-6.9b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	Dolly 12B adalah 12 miliar parameter instruksi mengikuti model bahasa besar berdasarkan pythia-12b. Ini dilatih pada petunjuk/respons fine tuning dataset databricks-dolly-15k dan dapat melakukan tugas-tugas termasuk brainstorming, klasifikasi, pertanyaan dan jawaban, pembuatan teks, ekstraksi informasi, dan peringkasan.
huggingface-llm-falcon-7b-bf16	`Falcon7B`	Falcon 7B adalah model bahasa besar kausal parameter 7 miliar yang dilatih pada 1.500 miliar token yang ditingkatkan dengan corpora yang dikurasi. Falcon-7B dilatih hanya pada data bahasa Inggris dan Prancis, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Karena model ini dilatih pada sejumlah besar data web, ia membawa stereotip dan bias yang biasa ditemukan secara online.
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	Falcon 7B Instruct adalah model bahasa besar kausal parameter 7 miliar yang dibangun di atas Falcon 7B dan disetel dengan baik pada campuran 250 juta token dari kumpulan data obrolan/instruksi. Falcon 7B Instruct sebagian besar dilatih pada data bahasa Inggris, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.
huggingface-llm-falcon-40b-bf16	`Falcon40B`	Falcon 40B adalah model bahasa besar kausal parameter 40 miliar yang dilatih pada 1.000 miliar token yang ditingkatkan dengan corpora yang dikuratori. Ini dilatih sebagian besar dalam bahasa Inggris, Jerman, Spanyol, dan Prancis, dengan kemampuan terbatas dalam bahasa Italia, Portugis, Polandia, Belanda, Rumania, Ceko, dan Swedia. Itu tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	Falcon 40B Instruct adalah model bahasa besar kausal parameter 40 miliar yang dibangun di atas Falcon40B dan disetel dengan baik pada campuran Baize. Ini sebagian besar dilatih pada data bahasa Inggris dan Prancis, dan tidak menggeneralisasi dengan tepat ke bahasa lain. Selain itu, karena dilatih pada perwakilan korpora skala besar dari web, ia membawa stereotip dan bias yang biasa ditemui secara online.
huggingface-text2text-flan-t5-large	`FlanT5L`	Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disesuaikan pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 L adalah 780 juta parameter model bahasa besar yang dilatih pada berbagai bahasa. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 L dalam detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.
huggingface-text2text-flan-t5-xl	`FlanT5XL`	Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disesuaikan pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 XL adalah model bahasa besar 3 miliar parameter yang dilatih pada berbagai bahasa. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 XL dalam detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	Sebuah Flan-T5keluarga model adalah seperangkat model bahasa besar yang disesuaikan pada banyak tugas dan dapat dilatih lebih lanjut. Model-model ini sangat cocok untuk tugas-tugas seperti terjemahan bahasa, pembuatan teks, penyelesaian kalimat, disambiguasi pengertian kata, ringkasan, atau menjawab pertanyaan. Flan T5 XXL adalah model parameter 11 miliar. Anda dapat menemukan daftar bahasa yang didukung oleh Flan T5 XXL dalam detail model yang diambil dari pencarian Anda berdasarkan ID model di JumpStart tabel model.
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-7B adalah model parameter 7 miliar yang ditujukan untuk penggunaan bahasa Inggris dan dapat disesuaikan untuk berbagai tugas pembuatan bahasa alami.
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-7B adalah model obrolan parameter 7 miliar yang dioptimalkan untuk kasus penggunaan dialog.
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-13B adalah model parameter 13 miliar yang ditujukan untuk penggunaan bahasa Inggris dan dapat disesuaikan untuk berbagai tugas pembuatan bahasa alami.
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disetel dengan baik, mulai dari 7 miliar hingga 70 miliar parameter. Llama2-13B adalah model obrolan parameter 13 miliar yang dioptimalkan untuk kasus penggunaan dialog.
huggingface-llm-mistral-7b	`Mistral7B`	Mistral 7B adalah kode tujuh miliar parameter dan model pembuatan teks bahasa Inggris tujuan umum. Ini dapat digunakan dalam berbagai kasus penggunaan termasuk ringkasan teks, klasifikasi, penyelesaian teks, atau penyelesaian kode.
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	Mistral 7B Instruct adalah versi Mistral 7B yang disetel dengan baik untuk kasus penggunaan percakapan. Itu khusus menggunakan berbagai kumpulan data percakapan yang tersedia untuk umum dalam bahasa Inggris.
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	MPT 7B adalah model bahasa besar transformator gaya decoder dengan 6,7 miliar parameter, pra-dilatih dari awal pada 1 triliun token teks dan kode bahasa Inggris. Ini disiapkan untuk menangani panjang konteks yang panjang.
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	MPT 7B Instruct adalah model untuk instruksi bentuk pendek berikut tugas-tugas. Ini dibangun dengan menyempurnakan MPT 7B pada kumpulan data yang berasal dari dataset yang berasal dari dataset databricks-dolly-15k dan Anthropic Helpful and Harmware (HH-RLHF).

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Buat pekerjaan fine-tuning LLM menggunakan AutoML API

Jenis file dataset dan format data input

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Model bahasa besar yang didukung untuk fine-tuning

catatan

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?