Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Types de fichiers de jeux de données et format des données d'entrée
Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches préentraînées LLMs sur des tâches spécifiques de traitement du langage naturel (). NLP Les exemples étiquetés sont formatés sous forme de paires prompte-réponse et formulés sous forme d'instructions.
Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultezTypes de fichiers de données pris en charge.
Pour en savoir plus sur le format des données d'entrée, voirFormat des données d'entrée pour un réglage précis basé sur les instructions.
Types de fichiers de données pris en charge
Le pilote automatique prend en charge les ensembles de données de réglage précis basés sur des instructions formatés sous forme de CSV fichiers (par défaut) ou de fichiers Parquet.
-
CSV(valeurs séparées par des virgules) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme, ce qui constitue un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
-
Le parquet est un format de fichier binaire basé sur des colonnes dans lequel les données sont stockées et traitées plus efficacement que dans des formats de fichier lisibles par l'homme tels queCSV. Cela en fait une meilleure option pour les problèmes liés aux mégadonnées.
Note
L'ensemble de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour plus d'informations sur le formatage de vos données d'entrée, consultezFormat des données d'entrée pour un réglage précis basé sur les instructions.
Format des données d'entrée pour un réglage précis basé sur les instructions
Chaque fichier de l'ensemble de données doit respecter le format suivant :
-
L'ensemble de données doit contenir exactement deux colonnes nommées et séparées par des virgules,
input
et.output
Le pilote automatique n'autorise aucune colonne supplémentaire. -
Les
input
colonnes contiennent les instructions, et les colonnes correspondantesoutput
contiennent la réponse attendue. Lesinput
etoutput
sont tous deux au format chaîne.
L'exemple suivant illustre le format des données d'entrée pour le réglage précis basé sur les instructions dans Autopilot.
input,output "<prompt text>","<expected generated text>"
Note
Nous recommandons d'utiliser des ensembles de données d'un minimum de 1 000 lignes pour garantir un apprentissage et des performances optimaux du modèle.
En outre, le pilote automatique définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.
-
Les limites du nombre de lignes d'un ensemble de données s'appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, y compris plusieurs fichiers. Si deux types de canaux sont définis (un pour l'entraînement et un pour la validation), la limite s'applique au nombre total de lignes dans tous les ensembles de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.
-
Lorsque la longueur de l'entrée ou de la sortie d'une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, le pilote automatique échoue avec une erreur de validation.
Le tableau suivant présente ces limites pour chaque modèle.
JumpStart ID du modèle | BaseModelName sur API demande |
Limite de lignes | Limite de longueur du contexte |
---|---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
10 000 lignes | 1024 jetons |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
10 000 lignes | 1024 jetons |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
10 000 lignes | 1024 jetons |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
1 000 lignes | 1024 jetons |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
1 000 lignes | 1024 jetons |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
10 000 lignes | 1024 jetons |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
10 000 lignes | 1024 jetons |
huggingface-text2text-flan-t5-large | FlanT5L |
10 000 lignes | 1024 jetons |
huggingface-text2text-flan-t5-xl | FlanT5XL |
10 000 lignes | 1024 jetons |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
10 000 lignes | 1024 jetons |
meta-textgeneration-llama-2-7b | Llama2-7B |
10 000 lignes | 2048 jetons |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
10 000 lignes | 2048 jetons |
meta-textgeneration-llama-2-13b | Llama2-13B |
7 000 lignes | 2048 jetons |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
7 000 lignes | 2048 jetons |
huggingface-llm-mistral-7b | Mistral7B |
10 000 lignes | 2048 jetons |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
10 000 lignes | 2048 jetons |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
10 000 lignes | 1024 jetons |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
10 000 lignes | 1024 jetons |