Formats de fichiers d'entraînement du classificateur

Pour un modèle en texte brut, vous pouvez fournir les données d'entraînement du classificateur sous forme de fichier CSV ou de fichier manifeste augmenté que vous créez à l'aide d'AI Ground SageMaker Truth. Le fichier CSV ou le fichier manifeste augmenté inclut le texte de chaque document de formation et ses étiquettes associées.

Pour un modèle de document natif, vous fournissez les données d'entraînement de Classifier sous forme de fichier CSV. Le fichier CSV inclut le nom de fichier de chaque document de formation et ses étiquettes associées. Vous incluez les documents de formation dans le dossier de saisie Amazon S3 correspondant à la tâche de formation.

fichiers CSV

Vous fournissez des données d'entraînement étiquetées sous UTF-8 forme de texte codé dans un fichier CSV. N'incluez pas de ligne d'en-tête. L'ajout d'une ligne d'en-tête dans votre fichier peut provoquer des erreurs d'exécution.

Pour chaque ligne du fichier CSV, la première colonne contient une ou plusieurs étiquettes de classe. Une étiquette de classe peut être n'importe quelle UTF-8 chaîne valide. Nous vous recommandons d'utiliser des noms de classe clairs dont la signification ne se chevauche pas. Le nom peut inclure des espaces blancs et peut être composé de plusieurs mots reliés par des traits de soulignement ou des traits d'union.

Ne laissez aucun espace avant ou après les virgules séparant les valeurs d'une ligne.

Le contenu exact du fichier CSV dépend du mode de classification et du type de données d'entraînement. Pour plus de détails, consultez les sections sur Multi-class mode etMulti-label mode.

Fichier manifeste augmenté

Un fichier manifeste augmenté est un ensemble de données étiqueté que vous créez à l'aide d' SageMaker AI Ground Truth. Ground Truth est un service d'étiquetage des données qui vous aide, ou qui aide le personnel que vous employez, à créer des ensembles de données de formation pour les modèles d'apprentissage automatique.

Pour plus d'informations sur Ground Truth et les résultats qu'il produit, consultez la section Utiliser SageMaker AI Ground Truth to Label Data dans le manuel Amazon SageMaker AI Developer Guide.

Les fichiers manifestes augmentés sont au format de lignes JSON. Dans ces fichiers, chaque ligne est un objet JSON complet qui contient un document de formation et ses étiquettes associées. Le contenu exact de chaque ligne dépend du mode de classification. Pour plus de détails, consultez les sections sur Multi-class mode etMulti-label mode.

Lorsque vous fournissez vos données de formation à Amazon Comprehend, vous spécifiez un ou plusieurs noms d'attributs d'étiquette. Le nombre de noms d'attributs que vous spécifiez varie selon que votre fichier manifeste augmenté est le résultat d'une tâche d'étiquetage unique ou d'une tâche d'étiquetage en chaîne.

Si votre fichier est le résultat d'une seule tâche d'étiquetage, spécifiez le nom de l'attribut d'étiquette unique issu de la tâche Ground Truth.

Si votre fichier est le résultat d'une tâche d'étiquetage en chaîne, spécifiez le nom de l'attribut d'étiquette pour une ou plusieurs tâches de la chaîne. Chaque nom d'attribut d'étiquette fournit les annotations d'une tâche individuelle. Vous pouvez spécifier jusqu'à 5 de ces attributs pour les fichiers manifestes augmentés issus de tâches d'étiquetage en chaîne.

Pour plus d'informations sur les tâches d'étiquetage en chaîne et pour obtenir des exemples des résultats qu'elles produisent, consultez la section Chaining Labeling Jobs dans le manuel Amazon SageMaker AI Developer Guide.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données d'entraînement

Multi-class mode