Modalità multiclasse - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modalità multiclasse

In modalità multiclasse, la classificazione assegna una classe per ogni documento. Le singole classi si escludono a vicenda. Ad esempio, puoi classificare un film come commedia o fantascienza, ma non entrambi.

Nota

La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

Modelli in testo semplice

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come CSV file o come file manifest aumentato da Ground Truth. SageMaker

CSVfile

Per informazioni generali sull'utilizzo CSV dei file per i classificatori di formazione, vedere. CSVfile

Fornisci i dati di addestramento come file a due CSV colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene un documento di testo di esempio per quella classe. Ogni riga deve terminare con\no\ r\ncaratteri.

L'esempio seguente mostra un CSV file contenente tre documenti.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS,Text of document 3

L'esempio seguente mostra una riga di un CSV file che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam:

SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

File manifesto aumentato

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. File manifesto aumentato

Per i documenti di testo semplice, ogni riga del file manifest aumentato è un JSON oggetto completo che contiene un documento di formazione, un nome di classe singolo e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a riconoscere i messaggi e-mail di spam:

{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

L'esempio seguente mostra un JSON oggetto del file manifesto aumentato, formattato per la leggibilità:

{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }

In questo esempio, l'sourceattributo fornisce il testo del documento di formazione e assegna l'MultiClassJobindice di una classe da un elenco di classificazione. L'job-nameattributo è il nome che hai definito per il lavoro di etichettatura in Ground Truth.

Quando inizi il processo di formazione sui classificatori in Amazon Comprehend, specifichi lo stesso nome del processo di etichettatura.

Modelli di documenti nativi

Un modello di documento nativo è un modello che si addestra con documenti nativi (ad esempio PDFDOCX, e immagini). I dati di addestramento vengono forniti sotto forma di CSV file.

CSVfile

Per informazioni generali sull'utilizzo CSV dei file per i classificatori di formazione, vedere. CSVfile

Fornisci i dati di addestramento come file a tre CSV colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per questa classe. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

L'esempio seguente mostra un CSV file che fa riferimento a tre documenti di input.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS,input-doc-3.png

L'esempio seguente mostra una riga di un CSV file che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam. La pagina 2 del PDF file contiene l'esempio di spam.

SPAM,email-content-3.pdf,2