Plain-text Modelle Systemeigene Dokumentenmodelle

Multi-class Modus

Im Mehrklassenmodus weist die Klassifizierung jedem Dokument eine Klasse zu. Die einzelnen Klassen schließen sich gegenseitig aus. Sie können beispielsweise einen Film als Komödie oder Science-Fiction klassifizieren, aber nicht als beides.

Anmerkung

Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

Plain-text Modelle

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.

CSV-Datei

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. CSV-Dateien

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält ein Beispiel-Textdokument für diese Klasse. Jede Zeile muss mit den Zeichen\noder\ r\nenden.

Das folgende Beispiel zeigt eine CSV-Datei mit drei Dokumenten.


CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator dahingehend trainiert, zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt:


SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

Erweiterte Manifestdatei

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unterErweiterte Manifestdatei.

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt, das ein Trainingsdokument, einen einzelnen Klassennamen und andere Metadaten von Ground Truth enthält. Das folgende Beispiel zeigt eine erweiterte Manifestdatei zum Trainieren eines benutzerdefinierten Klassifikators zur Erkennung von Spam-E-Mail-Nachrichten:


{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist:


{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}

In diesem Beispiel stellt das source Attribut den Text des Schulungsdokuments bereit, und das MultiClassJob Attribut weist den Index einer Klasse aus einer Klassifikationsliste zu. Das job-name Attribut ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben.

Wenn Sie den Classifier-Trainingsjob in Amazon Comprehend starten, geben Sie denselben Namen für den Labeling-Job an.

Systemeigene Dokumentenmodelle

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF, DOCX und Bildern) trainieren. Sie stellen die Trainingsdaten als CSV-Datei bereit.

CSV-Datei

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unterCSV-Dateien.

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klasse. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Das folgende Beispiel zeigt eine CSV-Datei, die auf drei Eingabedokumente verweist.


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt. Seite 2 der PDF-Datei enthält das Spam-Beispiel.


SPAM,email-content-3.pdf,2

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Formate für Trainingsdateien

Multi-label Modus