Modèles linguistiques étendus pris en charge pour un réglage précis - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèles linguistiques étendus pris en charge pour un réglage précis

À l'aide du pilote automatiqueAPI, les utilisateurs peuvent affiner les grands modèles linguistiques (LLMs) développés par Amazon. SageMaker JumpStart

Note

Pour affiner les modèles qui nécessitent l'acceptation d'un contrat de licence utilisateur final, vous devez explicitement déclarer votre EULA acceptation lors de la création de votre tâche AutoML. Notez qu'après avoir affiné un modèle préentraîné, les poids du modèle d'origine sont modifiés. Vous n'avez donc pas besoin d'en accepter un ultérieurement EULA lors du déploiement du modèle affiné.

Pour plus d'informations sur la façon d'accepter le EULA lors de la création d'une tâche de réglage fin à l'aide de l'APIAutoML, consultez. Comment définir l'EULAacceptation lors du réglage précis d'un modèle à l'aide de l'AutoML API

Vous pouvez trouver tous les détails de chaque modèle en recherchant votre numéro de JumpStart modèle dans le tableau des modèles suivant, puis en suivant le lien dans la colonne Source. Ces détails peuvent inclure les langages pris en charge par le modèle, les biais qu'il peut présenter, les ensembles de données utilisés pour le peaufinage, etc.

Le tableau suivant répertorie les JumpStart modèles pris en charge que vous pouvez affiner à l'aide d'une tâche AutoML.

JumpStart ID du modèle BaseModelNamesur API demande Description
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B est un modèle de langage large de 2,8 milliards de paramètres basé sur pythia-2.8b et qui suit des instructions de 2,8 milliards de paramètres. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B est un modèle de langage large de 6,9 milliards de paramètres basé sur pythia-6.9b, qui suit des instructions de 6,9 milliards de paramètres. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B est un grand modèle de langage basé sur Pythia-12b qui suit 12 milliards de paramètres et suit des instructions. Il est formé à l'utilisation du jeu de données de réglage précis des instructions/réponses databricks-dolly-15k et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et le résumé.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon7B est un grand modèle de langage basé sur 7 milliards de paramètres basé sur 1 500 milliards de jetons améliorés par des corpus sélectionnés. Falcon-7B est formé uniquement à partir de données en anglais et en français et ne généralise pas de manière appropriée aux autres langues. Comme le modèle a été conçu à partir de grandes quantités de données Web, il reprend les stéréotypes et les préjugés courants en ligne.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon7B Instruct est un grand modèle de langage causal à 7 milliards de paramètres construit sur Falcon7B et affiné sur un mélange de 250 millions de jetons d'ensembles de données de chat/instruction. Le Falcon7B Instruct est principalement formé à partir de données en anglais et ne généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-llm-falcon-40b-bf16 Falcon40B

Le Falcon40B est un grand modèle de langage causal de 40 milliards de paramètres basé sur 1 000 milliards de jetons améliorés par des corpus sélectionnés. Il est formé principalement en anglais, allemand, espagnol et français, avec des capacités limitées en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. Il ne se généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon40B Instruct est un grand modèle de langage causal à 40 milliards de paramètres construit sur Falcon40B et affiné sur un mélange de Baize. Il est principalement formé à partir de données en anglais et en français et ne se généralise pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus représentatifs du Web à grande échelle, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-text2text-flan-t5-large FlanT5L

L'interface Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 L est un grand modèle de langage de 780 millions de paramètres entraîné sur de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 L dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.

huggingface-text2text-flan-t5-xl FlanT5XL

L'interface Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 XL est un grand modèle de langage à 3 milliards de paramètres entraîné sur de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 XL dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.

huggingface-text2text-flan-t5-xxll FlanT5XXL

L'interface Flan-T5Une famille de modèles est un ensemble de grands modèles linguistiques qui sont affinés pour de multiples tâches et peuvent être perfectionnés. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthèse ou la réponse à des questions. Le Flan T5 XXL est un modèle à 11 milliards de paramètres. Vous trouverez la liste des langues prises en charge par le Flan T5 XXL dans les détails du modèle extraits de votre recherche par ID de modèle dans JumpStart le tableau des modèles.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-7B est le modèle à 7 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-7B est le modèle de chat à 7 milliards de paramètres optimisé pour les cas d'utilisation du dialogue.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-13B est le modèle de 13 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 est une collection de modèles de texte génératifs préentraînés et affinés, dont l'échelle varie de 7 milliards à 70 milliards de paramètres. Llama2-13B est le modèle de chat à 13 milliards de paramètres optimisé pour les cas d'utilisation du dialogue.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B est un code de sept milliards de paramètres et un modèle de génération de texte anglais à usage général. Il peut être utilisé dans divers cas d'utilisation, notamment pour la synthèse de texte, la classification, la complétion de texte ou la complétion de code.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct est la version affinée de Mistral 7B pour les cas d'utilisation conversationnels. Il était spécialisé en utilisant divers ensembles de données de conversation accessibles au public en anglais.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPTLe 7B est un grand modèle de langage de type transformateur de type décodeur avec 6,7 milliards de paramètres, pré-entraîné à partir de zéro sur 1 billion de jetons de texte et de code anglais. Il est prêt à gérer de longues longueurs de contexte.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT7B Instruct est un modèle d'instruction abrégée suivant des tâches. Il est construit en affinant MPT 7B sur un ensemble de données dérivé des ensembles de données databricks-dolly-15k et des ensembles de données Anthropic Helpful and Harmless (HH-). RLHF