Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dateiformate für das Classifier-Training
Für ein Klartextmodell können Sie Classifier-Trainingsdaten als CSV Datei oder als erweiterte Manifestdatei bereitstellen, die Sie mit SageMaker AI Ground Truth erstellen. Die CSV Datei oder erweiterte Manifestdatei enthält den Text für jedes Trainingsdokument und die zugehörigen Bezeichnungen.
Für ein systemeigenes Dokumentenmodell stellen Sie Classifier-Trainingsdaten als CSV Datei bereit. Die CSV Datei enthält den Dateinamen für jedes Schulungsdokument und die zugehörigen Labels. Sie fügen die Schulungsdokumente in den Amazon S3 S3-Eingabeordner für den Schulungsjob ein.
CSVDateien
Sie stellen beschriftete Trainingsdaten als UTF -8-codierten Text in einer CSV Datei bereit. Fügen Sie keine Kopfzeile hinzu. Das Hinzufügen einer Kopfzeile zu Ihrer Datei kann zu Laufzeitfehlern führen.
Für jede Zeile in der CSV Datei enthält die erste Spalte eine oder mehrere Klassenbezeichnungen. Eine Klassenbezeichnung kann eine beliebige gültige Zeichenfolge mit UTF -8 sein. Wir empfehlen, klare Klassennamen zu verwenden, deren Bedeutung sich nicht überschneidet. Der Name kann Leerzeichen enthalten und aus mehreren Wörtern bestehen, die durch Unterstriche oder Bindestriche miteinander verbunden sind.
Lassen Sie vor oder nach den Kommas, die die Werte in einer Zeile trennen, keine Leerzeichen stehen.
Der genaue Inhalt der CSV Datei hängt vom Klassifikatormodus und der Art der Trainingsdaten ab. Einzelheiten finden Sie in den Abschnitten zu Mehrklassenmodus undModus mit mehreren Bezeichnungen.
Erweiterte Manifestdatei
Eine erweiterte Manifestdatei ist ein beschrifteter Datensatz, den Sie mit SageMaker AI Ground Truth erstellen. Ground Truth ist ein Datenkennzeichnungsdienst, der Ihnen — oder einer von Ihnen beschäftigten Belegschaft — dabei hilft, Trainingsdatensätze für Modelle des maschinellen Lernens zu erstellen.
Weitere Informationen zu Ground Truth und den damit erzeugten Ergebnissen finden Sie unter Use SageMaker AI Ground Truth to Label Data im Amazon SageMaker AI Developer Guide.
Erweiterte Manifestdateien haben das JSON Zeilenformat. In diesen Dateien ist jede Zeile ein vollständiges JSON Objekt, das ein Schulungsdokument und die zugehörigen Beschriftungen enthält. Der genaue Inhalt jeder Zeile hängt vom Klassifikatormodus ab. Einzelheiten finden Sie in den Abschnitten zu Mehrklassenmodus undModus mit mehreren Bezeichnungen.
Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, geben Sie einen oder mehrere Namen für Labelattribute an. Wie viele Attributnamen Sie angeben, hängt davon ab, ob Ihre erweiterte Manifestdatei das Ergebnis eines einzelnen Labeling-Jobs oder eines verketteten Labeling-Jobs ist.
Wenn Ihre Datei das Ergebnis eines einzelnen Label-Jobs ist, geben Sie den Namen des einzelnen Label-Attributs aus dem Ground Truth Job an.
Wenn Ihre Datei das Ergebnis eines verketteten Beschriftungsauftrags ist, geben Sie den Namen des Labelattributs für einen oder mehrere Jobs in der Kette an. Jeder Name eines Labelattributs enthält die Anmerkungen zu einem einzelnen Auftrag. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien aus verketteten Labeling-Jobs angeben.
Weitere Informationen zu verketteten Labeling-Jobs und Beispiele für das Ergebnis, das sie produzieren, finden Sie unter Chaining Labeling-Jobs im Amazon SageMaker AI Developer Guide.