Modus mit mehreren Bezeichnungen - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Modus mit mehreren Bezeichnungen

Im Modus mit mehreren Bezeichnungen stehen einzelne Klassen für unterschiedliche Kategorien, die sich nicht gegenseitig ausschließen. Bei der Klassifizierung mit mehreren Bezeichnungen werden jedem Dokument eine oder mehrere Klassen zugewiesen. Sie können beispielsweise einen Film als Dokumentarfilm und einen anderen als Science-Fiction, Action und Comedy klassifizieren.

Zu Schulungszwecken unterstützt der Multi-Label-Modus bis zu 1 Million Beispiele mit bis zu 100 eindeutigen Klassen.

Modelle im Klartext-Format

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV Datei oder als erweiterte Manifestdatei von SageMaker Ground Truth bereitstellen.

CSVDatei

Allgemeine Hinweise zur Verwendung von CSV Dateien für das Training von Klassifikatoren finden Sie unterCSVDateien.

Stellen Sie die Trainingsdaten als CSV zweispaltige Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte, und die zweite Spalte enthält ein Beispieltextdokument für diese Klassen. Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

Das folgende Beispiel zeigt eine Zeile einer CSV Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS _1, CLASS _2 und CLASS _3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.

Erweiterte Manifestdatei

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unterErweiterte Manifestdatei.

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges Objekt. JSON Es enthält ein Schulungsdokument, Klassennamen und andere Metadaten von Ground Truth. Das folgende Beispiel ist eine erweiterte Manifestdatei, mit der ein benutzerdefinierter Klassifikator trainiert wird, um Genres in Filmzusammenfassungen zu erkennen:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

Das folgende Beispiel zeigt ein JSON Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

In diesem Beispiel stellt das source Attribut den Text des Schulungsdokuments bereit, und das MultiLabelJob Attribut weist die Indizes mehrerer Klassen aus einer Klassifikationsliste zu. Der Jobname in den MultiLabelJob Metadaten ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben.

Systemeigene Dokumentenmodelle

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDFDOCX, und Bilddateien) trainieren. Sie stellen beschriftete Trainingsdaten als CSV Datei bereit.

CSVDatei

Allgemeine Hinweise zur Verwendung von CSV Dateien für das Training von Klassifikatoren finden Sie unterCSVDateien.

Stellen Sie die Trainingsdaten als CSV dreispaltige Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klassen. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

Das folgende Beispiel zeigt eine Zeile einer CSV Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen. Seite 2 der PDF Datei enthält das Beispiel einer Komödie oder eines Jugendfilms.

COMEDY|TEEN,movie-summary-1.pdf,2

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS _1, CLASS _2 und CLASS _3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.