Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Mode multi-étiquettes
En mode multi-étiquettes, les classes individuelles représentent différentes catégories qui ne s'excluent pas mutuellement. La classification à étiquettes multiples attribue une ou plusieurs classes à chaque document. Par exemple, vous pouvez classer un film en tant que documentaire et un autre en tant que film de science-fiction, d'action et de comédie.
Pour la formation, le mode multi-étiquettes prend en charge jusqu'à 1 million d'exemples contenant jusqu'à 100 classes uniques.
Modèles en texte brut
Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de CSV fichier ou de fichier manifeste augmenté à partir d' SageMaker AI Ground Truth.
CSV file
Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.
Fournissez les données d'entraînement sous forme de CSV fichier à deux colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe, et la seconde contient un exemple de document texte pour ces classes. Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films :
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
Le séparateur par défaut entre les noms de classes est un tube (|). Toutefois, vous pouvez utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères des noms de classe. Par exemple, si vos classes sont CLASS _1, CLASS _2 et CLASS _3, le trait de soulignement (_) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme délimiteur pour séparer les noms de classe.
Fichier manifeste augmenté
Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultezFichier manifeste augmenté.
Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet completJSON. Il contient un document de formation, des noms de classes et d'autres métadonnées de Ground Truth. L'exemple suivant est un fichier manifeste augmenté permettant d'entraîner un classificateur personnalisé à détecter les genres dans les résumés de films :
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
L'exemple suivant montre un JSON objet du fichier manifeste augmenté, formaté dans un souci de lisibilité :
{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }
Dans cet exemple, l'source
attribut fournit le texte du document de formation et MultiLabelJob
attribue les index de plusieurs classes à partir d'une liste de classification. Le nom de tâche indiqué dans les MultiLabelJob
métadonnées est le nom que vous avez défini pour le travail d'étiquetage dans Ground Truth.
Modèles de documents natifs
Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels quePDF,DOCX, et des fichiers image). Vous fournissez des données d'entraînement étiquetées sous forme de CSV fichier.
CSV file
Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.
Fournissez les données d'entraînement sous forme de CSV fichier à trois colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour ces classes. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.
Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films. La page 2 du PDF fichier contient l'exemple d'une comédie ou d'un film pour adolescents.
COMEDY|TEEN,movie-summary-1.pdf,2
Le séparateur par défaut entre les noms de classes est un tube (|). Toutefois, vous pouvez utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères des noms de classe. Par exemple, si vos classes sont CLASS _1, CLASS _2 et CLASS _3, le trait de soulignement (_) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme délimiteur pour séparer les noms de classe.