Types de fichiers de jeux de données et format des données d'entrée - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Types de fichiers de jeux de données et format des données d'entrée

Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches préentraînées LLMs sur des tâches spécifiques de traitement du langage naturel (). NLP Les exemples étiquetés sont formatés sous forme de paires prompte-réponse et formulés sous forme d'instructions.

Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultezTypes de fichiers de données pris en charge.

Pour en savoir plus sur le format des données d'entrée, voirFormat des données d'entrée pour un réglage précis basé sur les instructions.

Types de fichiers de données pris en charge

Le pilote automatique prend en charge les ensembles de données de réglage précis basés sur des instructions formatés sous forme de CSV fichiers (par défaut) ou de fichiers Parquet.

  • CSV(valeurs séparées par des virgules) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme, ce qui constitue un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.

  • Le parquet est un format de fichier binaire basé sur des colonnes dans lequel les données sont stockées et traitées plus efficacement que dans des formats de fichier lisibles par l'homme tels queCSV. Cela en fait une meilleure option pour les problèmes liés aux mégadonnées.

Note

L'ensemble de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour plus d'informations sur le formatage de vos données d'entrée, consultezFormat des données d'entrée pour un réglage précis basé sur les instructions.

Format des données d'entrée pour un réglage précis basé sur les instructions

Chaque fichier de l'ensemble de données doit respecter le format suivant :

  • L'ensemble de données doit contenir exactement deux colonnes nommées et séparées par des virgules, input et. output Le pilote automatique n'autorise aucune colonne supplémentaire.

  • Les input colonnes contiennent les instructions, et les colonnes correspondantes output contiennent la réponse attendue. Les input et output sont tous deux au format chaîne.

L'exemple suivant illustre le format des données d'entrée pour le réglage précis basé sur les instructions dans Autopilot.

input,output "<prompt text>","<expected generated text>"
Note

Nous recommandons d'utiliser des ensembles de données d'un minimum de 1 000 lignes pour garantir un apprentissage et des performances optimaux du modèle.

En outre, le pilote automatique définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.

  • Les limites du nombre de lignes d'un ensemble de données s'appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, y compris plusieurs fichiers. Si deux types de canaux sont définis (un pour l'entraînement et un pour la validation), la limite s'applique au nombre total de lignes dans tous les ensembles de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.

  • Lorsque la longueur de l'entrée ou de la sortie d'une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, le pilote automatique échoue avec une erreur de validation.

Le tableau suivant présente ces limites pour chaque modèle.

JumpStart ID du modèle BaseModelNamesur API demande Limite de lignes Limite de longueur du contexte
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10 000 lignes 1024 jetons
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10 000 lignes 1024 jetons
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10 000 lignes 1024 jetons
huggingface-llm-falcon-7b-bf16 Falcon7B 1 000 lignes 1024 jetons
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1 000 lignes 1024 jetons
huggingface-llm-falcon-40b-bf16 Falcon40B 10 000 lignes 1024 jetons
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10 000 lignes 1024 jetons
huggingface-text2text-flan-t5-large FlanT5L 10 000 lignes 1024 jetons
huggingface-text2text-flan-t5-xl FlanT5XL 10 000 lignes 1024 jetons
huggingface-text2text-flan-t5-xxll FlanT5XXL 10 000 lignes 1024 jetons
meta-textgeneration-llama-2-7b Llama2-7B 10 000 lignes 2048 jetons
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10 000 lignes 2048 jetons
meta-textgeneration-llama-2-13b Llama2-13B 7 000 lignes 2048 jetons
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7 000 lignes 2048 jetons
huggingface-llm-mistral-7b Mistral7B 10 000 lignes 2048 jetons
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10 000 lignes 2048 jetons
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10 000 lignes 1024 jetons
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10 000 lignes 1024 jetons