Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Modus mit mehreren Bezeichnungen
Im Modus mit mehreren Bezeichnungen stehen einzelne Klassen für unterschiedliche Kategorien, die sich nicht gegenseitig ausschließen. Bei der Klassifizierung mit mehreren Bezeichnungen werden jedem Dokument eine oder mehrere Klassen zugewiesen. Sie können beispielsweise einen Film als Dokumentarfilm und einen anderen als Science-Fiction, Action und Comedy klassifizieren.
Zu Schulungszwecken unterstützt der Multi-Label-Modus bis zu 1 Million Beispiele mit bis zu 100 eindeutigen Klassen.
Modelle im Klartext-Format
Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.
CSV file
Allgemeine Informationen zur Verwendung von CSV Dateien zum Trainieren von Klassifikatoren finden Sie unter. CSVDateien
Stellen Sie die Trainingsdaten als CSV zweispaltige Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte, und die zweite Spalte enthält ein Beispieltextdokument für diese Klassen. Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
Das folgende Beispiel zeigt eine Zeile einer CSV Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen:
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS _1, CLASS _2 und CLASS _3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.
Erweiterte Manifestdatei
Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unterErweiterte Manifestdatei.
Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges Objekt. JSON Es enthält ein Schulungsdokument, Klassennamen und andere Metadaten von Ground Truth. Das folgende Beispiel ist eine erweiterte Manifestdatei, mit der ein benutzerdefinierter Klassifikator trainiert wird, um Genres in Filmzusammenfassungen zu erkennen:
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
Das folgende Beispiel zeigt ein JSON Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist:
{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }
In diesem Beispiel stellt das source
Attribut den Text des Schulungsdokuments bereit, und das MultiLabelJob
Attribut weist die Indizes mehrerer Klassen aus einer Klassifikationsliste zu. Der Jobname in den MultiLabelJob
Metadaten ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben.
Systemeigene Dokumentenmodelle
Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDFDOCX, und Bilddateien) trainieren. Sie stellen beschriftete Trainingsdaten als CSV Datei bereit.
CSV file
Allgemeine Informationen zur Verwendung von CSV Dateien für Trainingsklassifikatoren finden Sie unterCSVDateien.
Stellen Sie die Trainingsdaten als CSV dreispaltige Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klassen. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.
Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein |) zwischen den einzelnen Klassen.
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
Das folgende Beispiel zeigt eine Zeile einer CSV Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen. Seite 2 der PDF Datei enthält das Beispiel einer Komödie oder eines Jugendfilms.
COMEDY|TEEN,movie-summary-1.pdf,2
Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (|). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS _1, CLASS _2 und CLASS _3 sind, ist der Unterstrich (_) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.