Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione

Utilizzando AutopilotAPI, gli utenti possono perfezionare modelli linguistici di grandi dimensioni (LLMs) basati su Amazon. SageMaker JumpStart

Nota

Per la messa a punto dei modelli che richiedono l'accettazione di un contratto di licenza per l'utente finale, è necessario dichiarare esplicitamente l'EULAaccettazione al momento della creazione del job AutoML. Si noti che dopo la messa a punto di un modello già addestrato, i pesi del modello originale vengono modificati, quindi non è necessario accettare in un secondo momento una volta distribuito il modello perfezionato. EULA

Per informazioni su come accettare la EULA creazione di un lavoro di fine-tuning utilizzando AutoML, vedere. API Come impostare l'EULAaccettazione durante la messa a punto di un modello utilizzando AutoML API

È possibile trovare i dettagli completi di ciascun modello cercando l'ID del JumpStart modello nella seguente tabella dei modelli e quindi seguendo il collegamento nella colonna Source. Questi dettagli possono includere le lingue supportate dal modello, le distorsioni che può presentare, i set di dati utilizzati per la messa a punto e altro ancora.

La tabella seguente elenca i JumpStart modelli supportati che è possibile ottimizzare con un job AutoML.

JumpStart ID del modello BaseModelNameAPIsu richiesta Descrizione
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B è un ampio modello di linguaggio che segue istruzioni da 2,8 miliardi di parametri basato su pythia-2.8b. È addestrato sul set di dati di ottimizzazione di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B è un ampio modello di linguaggio basato su pythia-6.9b che segue istruzioni da 6,9 miliardi di parametri. È addestrato sul set di dati di ottimizzazione di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B è un ampio modello di linguaggio basato su pythia-12b e segue istruzioni da 12 miliardi di parametri. È addestrato sul set di dati di ottimizzazione di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B è un ampio modello linguistico causale da 7 miliardi di parametri basato su 1.500 miliardi di token potenziato con corpora curati. Falcon-7B è addestrato solo su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Poiché il modello è stato addestrato su grandi quantità di dati Web, presenta gli stereotipi e i pregiudizi che si riscontrano comunemente online.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct è un modello di linguaggio causale di grandi dimensioni da 7 miliardi di parametri basato su Falcon 7B e ottimizzato su una combinazione di set di dati chat/instruct da 250 milioni di token. Falcon 7B Instruct si basa principalmente su dati in inglese e non viene generalizzato in modo appropriato ad altre lingue. Inoltre, essendo formato su grandi corporazioni rappresentative del Web, presenta gli stereotipi e i pregiudizi che si incontrano comunemente online.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B è un ampio modello linguistico causale da 40 miliardi di parametri basato su 1.000 miliardi di token migliorato con corpora curati. È formato principalmente in inglese, tedesco, spagnolo e francese, con capacità limitate in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese. Non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo formato su grandi corporazioni rappresentative del Web, presenta gli stereotipi e i pregiudizi che si incontrano comunemente online.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct è un ampio modello di linguaggio causale da 40 miliardi di parametri basato su Falcon40B e ottimizzato su una combinazione di Baize. È per lo più addestrato su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo formato su grandi corporazioni rappresentative del Web, è portatore degli stereotipi e dei pregiudizi che si incontrano comunemente online.

huggingface-text2text-flan-t5-large FlanT5L

Il Flan-T5La famiglia di modelli è un insieme di modelli linguistici di grandi dimensioni che si adattano a molteplici attività e possono essere ulteriormente formati. Questi modelli sono particolarmente adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 L è un modello linguistico di 780 milioni di parametri di grandi dimensioni addestrato su numerose lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 L nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

huggingface-text2text-flan-t5-xl FlanT5XL

Il Flan-T5la famiglia di modelli è un insieme di modelli linguistici di grandi dimensioni che vengono ottimizzati per più attività e possono essere ulteriormente addestrati. Questi modelli sono particolarmente adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XL è un modello linguistico di 3 miliardi di parametri di grandi dimensioni addestrato su numerose lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 XL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

huggingface-text2text-flan-t5-xxll FlanT5XXL

Il Flan-T5la famiglia di modelli è un insieme di modelli linguistici di grandi dimensioni che vengono ottimizzati per più attività e possono essere ulteriormente formati. Questi modelli sono particolarmente adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 è un modello da 11 miliardi XXL di parametri. Puoi trovare l'elenco delle lingue supportate da Flan T5 XXL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 è una raccolta di modelli di testo generativi preformati e ottimizzati, con una scala compresa tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello da 7 miliardi di parametri destinato all'uso in inglese e può essere adattato per una varietà di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 è una raccolta di modelli di testo generativi preformati e ottimizzati, con una scala compresa tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello di chat da 7 miliardi di parametri ottimizzato per i casi di dialogo.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 è una raccolta di modelli di testo generativi preformati e ottimizzati, con una scala compresa tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello da 13 miliardi di parametri destinato all'uso in inglese e può essere adattato per una varietà di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 è una raccolta di modelli di testo generativi preformati e ottimizzati, con una scala compresa tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello di chat da 13 miliardi di parametri ottimizzato per i casi di dialogo.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B è un codice da sette miliardi di parametri e un modello generico di generazione di testi in inglese. Può essere utilizzato in una varietà di casi d'uso, tra cui riepilogo del testo, classificazione, completamento del testo o completamento del codice.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct è la versione ottimizzata di Mistral 7B per casi d'uso conversazionali. Era specializzato nell'utilizzo di una varietà di set di dati di conversazione disponibili al pubblico in inglese.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT7B è un ampio modello linguistico di trasformazione in stile decoder con 6,7 miliardi di parametri, preaddestrato da zero su 1 trilione di token di testo e codice in inglese. È predisposto per gestire contesti di lunga durata.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT7B Instruct è un modello per istruzioni in forma breve che seguono le attività. È costruito ottimizzando MPT 7B su un set di dati derivato da databricks-dolly-15k e dai set di dati Anthropic Helpful and Harmless (HH-). RLHF