Types de fichiers de jeux de données Format des données en entrée

Types de fichiers de jeux de données et format des données d'entrée

Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches préentraînées LLMs sur des tâches spécifiques de traitement du langage naturel (). NLP Les exemples étiquetés sont formatés sous forme de paires prompte-réponse et formulés sous forme d'instructions.

Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultezTypes de fichiers de données pris en charge.

Pour en savoir plus sur le format des données d'entrée, voirFormat des données d'entrée pour un réglage précis basé sur les instructions.

Types de fichiers de données pris en charge

Le pilote automatique prend en charge les ensembles de données de réglage précis basés sur des instructions formatés sous forme de CSV fichiers (par défaut) ou de fichiers Parquet.

CSV(valeurs séparées par des virgules) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme, ce qui constitue un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
Le parquet est un format de fichier binaire basé sur des colonnes dans lequel les données sont stockées et traitées plus efficacement que dans des formats de fichier lisibles par l'homme tels queCSV. Cela en fait une meilleure option pour les problèmes liés aux mégadonnées.

Note

L'ensemble de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour plus d'informations sur le formatage de vos données d'entrée, consultezFormat des données d'entrée pour un réglage précis basé sur les instructions.

Format des données d'entrée pour un réglage précis basé sur les instructions

Chaque fichier de l'ensemble de données doit respecter le format suivant :

L'ensemble de données doit contenir exactement deux colonnes nommées et séparées par des virgules, input et. output Le pilote automatique n'autorise aucune colonne supplémentaire.
Les input colonnes contiennent les instructions, et les colonnes correspondantes output contiennent la réponse attendue. Les input et output sont tous deux au format chaîne.

L'exemple suivant illustre le format des données d'entrée pour le réglage précis basé sur les instructions dans Autopilot.


input,output
"<prompt text>","<expected generated text>"

Note

Nous recommandons d'utiliser des ensembles de données d'un minimum de 1 000 lignes pour garantir un apprentissage et des performances optimaux du modèle.

En outre, le pilote automatique définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.

Les limites du nombre de lignes d'un ensemble de données s'appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, y compris plusieurs fichiers. Si deux types de canaux sont définis (un pour l'entraînement et un pour la validation), la limite s'applique au nombre total de lignes dans tous les ensembles de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.
Lorsque la longueur de l'entrée ou de la sortie d'une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, le pilote automatique échoue avec une erreur de validation.

Le tableau suivant présente ces limites pour chaque modèle.

JumpStart ID du modèle	`BaseModelName`sur API demande	Limite de lignes	Limite de longueur du contexte
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10 000 lignes	1024 jetons
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10 000 lignes	1024 jetons
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10 000 lignes	1024 jetons
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1 000 lignes	1024 jetons
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1 000 lignes	1024 jetons
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10 000 lignes	1024 jetons
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10 000 lignes	1024 jetons
huggingface-text2text-flan-t5-large	`FlanT5L`	10 000 lignes	1024 jetons
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10 000 lignes	1024 jetons
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10 000 lignes	1024 jetons
meta-textgeneration-llama-2-7b	`Llama2-7B`	10 000 lignes	2048 jetons
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10 000 lignes	2048 jetons
meta-textgeneration-llama-2-13b	`Llama2-13B`	7 000 lignes	2048 jetons
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7 000 lignes	2048 jetons
huggingface-llm-mistral-7b	`Mistral7B`	10 000 lignes	2048 jetons
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10 000 lignes	2048 jetons
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10 000 lignes	1024 jetons
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10 000 lignes	1024 jetons

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Modèles pris en charge

Hyperparamètres