Modalità multi-etichetta - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modalità multi-etichetta

In modalità multietichetta, le singole classi rappresentano categorie diverse che non si escludono a vicenda. La classificazione multietichetta assegna una o più classi a ciascun documento. Ad esempio, puoi classificare un film come documentario e un altro film come fantascienza, azione e commedia.

Per quanto riguarda la formazione, la modalità multi-etichetta supporta fino a 1 milione di esempi contenenti fino a 100 classi uniche.

Modelli in testo semplice

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come CSV file o come file manifest aumentato da Ground Truth. SageMaker

CSVfile

Per informazioni generali sull'utilizzo CSV dei file per i classificatori di formazione, vedere. CSVfile

Fornisci i dati di addestramento come file a due CSV colonne. Per ogni riga, la prima colonna contiene i valori delle etichette delle classi e la seconda contiene un documento di testo di esempio per queste classi. Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un |) tra ogni classe.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

L'esempio seguente mostra una riga di un CSV file che addestra un classificatore personalizzato a rilevare i generi negli abstract dei film:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Il delimitatore predefinito tra i nomi delle classi è una pipe (|). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. Ad esempio, se le classi sono CLASS _1, CLASS _2 e CLASS _3, il carattere di sottolineatura (_) fa parte del nome della classe. Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.

File manifesto aumentato

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. File manifesto aumentato

Per i documenti in testo semplice, ogni riga del file manifesto aumentato è un oggetto completo. JSON Contiene un documento di formazione, i nomi delle classi e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a rilevare i generi negli abstract dei film:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

L'esempio seguente mostra un JSON oggetto del file manifesto aumentato, formattato per la leggibilità:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

In questo esempio, l'sourceattributo fornisce il testo del documento di formazione e assegna gli MultiLabelJob indici di diverse classi da un elenco di classificazione. Il nome del lavoro nei MultiLabelJob metadati è il nome che hai definito per il lavoro di etichettatura in Ground Truth.

Modelli di documenti nativi

Un modello di documento nativo è un modello che si addestra con documenti nativi (ad esempio PDFDOCX, e file di immagine). Fornisci dati di addestramento etichettati come CSV file.

CSVfile

Per informazioni generali sull'utilizzo CSV dei file per i classificatori di formazione, vedere. CSVfile

Fornisci i dati di addestramento come file a tre CSV colonne. Per ogni riga, la prima colonna contiene i valori dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per queste classi. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un |) tra ogni classe.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

L'esempio seguente mostra una riga di un CSV file che addestra un classificatore personalizzato a rilevare i generi negli abstract dei film. La pagina 2 del PDF file contiene l'esempio di una commedia/film per ragazzi.

COMEDY|TEEN,movie-summary-1.pdf,2

Il delimitatore predefinito tra i nomi delle classi è una pipe (|). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. Ad esempio, se le classi sono CLASS _1, CLASS _2 e CLASS _3, il carattere di sottolineatura (_) fa parte del nome della classe. Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.