Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Modèles de base et hyperparamètres pour un réglage précis
Les modèles de fondation sont coûteux en ressources informatiques et sont entraînés sur un vaste corps non étiqueté. L'optimisation d'un modèle de fondation pré-entraîné est un moyen abordable de tirer parti de ses nombreuses fonctionnalités tout en personnalisant un modèle sur votre propre petit corps. L'optimisation est une méthode de personnalisation qui implique un entraînement supplémentaire et qui modifie le poids de votre modèle.
L'optimisation peut vous être utile si vous avez besoin :
-
de personnaliser votre modèle en fonction des besoins spécifiques de votre entreprise
-
que votre modèle fonctionne correctement avec un langage spécifique à un domaine, tel que le jargon de l'industrie, les termes techniques ou tout autre vocabulaire spécialisé
-
de performances améliorées pour certaines tâches
-
de réponses précises, relatives et contextuelles dans les applications
-
de réponses plus factuelles, moins toxiques et mieux adaptées à certaines exigences
Il existe deux approches principales que vous pouvez adopter pour l'optimisation en fonction de votre cas d'utilisation et du modèle de fondation choisi.
-
Si vous souhaitez optimiser votre modèle sur des données spécifiques à un domaine, consultez Ajustez un grand modèle de langage (LLM) à l'aide de l'adaptation de domaine.
-
Si vous souhaitez effectuer une optimisation basée sur des instructions à l'aide d'exemples d'invite et de réponse, consultez Ajustez un grand modèle de langage (LLM) à l'aide d'instructions rapides.
Modèles de base disponibles pour un ajustement précis
Vous pouvez affiner l'un des modèles de JumpStart base suivants :
-
Bloom 3B
-
Bloom 7B1
-
BloomZ 3B FP16
-
Bloom Z 7B1 FP16
-
Code Llama 13B
-
Code Llama 13B Python
-
Code Llama 34B
-
Code Llama 34B Python
-
Code Llama 70B
-
Code Llama 70B Python
-
Code Llama 7B
-
Code Llama 7B Python
-
CyberAgentLM2-7B-Chat (-7B-Chat) CALM2
-
Falcon40 B BF16
-
Falcon40B Instruct BF16
-
Falcon7 B BF16
-
Falcon7B Instruct BF16
-
Base Flan-T5
-
Flan-T5 Grand
-
Flan-T5 Petit
-
Flan-T5 XL
-
Flan-T5 XXL
-
Gemma 2 B
-
Gemma 2B Instructeur
-
Gemma 7B
-
Gemma 7B Instruct
-
GPT-2 XL
-
GPT-J 6 B
-
GPT-Néo 1,3 B
-
GPT-Néo 125M
-
GPT- NEO 2,7 B
-
Light GPT Instruct 6B
-
Lama 2 13B
-
Chat Llama 2 13B
-
Neurone Llama 2 13B
-
Lama 2 70B
-
Chat Llama 2 70B
-
Lama 2 7B
-
Chat Llama 2 7B
-
Neurone Llama 2 7B
-
Mistral 7B
-
Mixtral 8 x 7 V
-
Mixtral 8x7B Instruct
-
RedPajama INCITECulot 3B V1
-
RedPajama INCITECulot 7B V1
-
RedPajama INCITEChat 3B V1
-
RedPajama INCITETchat 7B V1
-
RedPajama INCITEInstruire 3B V1
-
RedPajama INCITEInstruire 7B V1
-
Diffusion stable 2.1
Hyperparamètres de réglage précis couramment pris en charge
Différents modèles de base prennent en charge différents hyperparamètres lors du réglage précis. Les hyperparamètres suivants sont couramment pris en charge et permettent de personnaliser davantage votre modèle pendant l'entraînement :
Paramètre d'inférence | Description |
---|---|
|
Nombre de passages effectués par le modèle dans l'ensemble de données de réglage fin pendant l'entraînement. Doit être un entier supérieur à 1. |
|
Fréquence à laquelle les poids du modèle sont mis à jour après avoir examiné chaque lot d'exemples d'entraînement de réglage précis. Doit être un flottant positif supérieur à 0. |
|
S'il faut former le modèle ou non. Doit être |
|
La taille du lot par GPU cœur ou CPU pour l'entraînement. Il doit s'agir d'un entier positif. |
|
La taille du lot par GPU cœur ou à CPU des fins d'évaluation. Il doit s'agir d'un entier positif. |
|
À des fins de débogage ou d'apprentissage plus rapide, tronquez le nombre d'exemples d'apprentissage à cette valeur. La valeur -1 signifie que le modèle utilise tous les échantillons d'apprentissage. Doit être un entier positif ou -1. |
|
À des fins de débogage ou d'apprentissage plus rapide, tronquez le nombre d'exemples de validation à cette valeur. La valeur -1 signifie que le modèle utilise tous les échantillons de validation. Doit être un entier positif ou -1. |
|
Longueur totale maximale de la séquence d'entrée après tokenisation. Les séquences plus longues seront tronquées. Si -1, |
|
S'il n'y a pas de canal de validation, le ratio de validation du train est séparé des données d'entraînement. Doit être compris entre 0 et 1. |
|
Si les données de validation ne sont pas présentes, cela corrige le découpage aléatoire des données d'entraînement d'entrée en données d'entraînement et de validation utilisées par le modèle. Doit être un entier. |
|
Le nombre de processus à utiliser pour le prétraitement. Si |
|
Valeur d'adaptation LoRa (LoRa) r, qui sert de facteur d'échelle pour les mises à jour du poids. Il doit s'agir d'un entier positif. |
|
Valeur alpha d'adaptation de bas rang (LoRa), qui sert de facteur d'échelle pour les mises à jour du poids. Généralement 2 à 4 fois la taille de |
|
La valeur d'abandon pour les couches d'adaptation de bas rang (LoRa) doit être un flottant positif compris entre 0 et 1. |
|
Si |
|
Si |
Vous pouvez spécifier des valeurs d'hyperparamètres lorsque vous peaufinez votre modèle dans Studio. Pour de plus amples informations, veuillez consulter Affiner un modèle dans Studio.
Vous pouvez également remplacer les valeurs par défaut des hyperparamètres lorsque vous peaufinez votre modèle à l'aide du SageMaker Python SDK. Pour plus d'informations, consultez Ajustez les modèles de base accessibles au public avec la classe JumpStartEstimator.