View a markdown version of this page

Modelle zur Trainingsklassifizierung - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Modelle zur Trainingsklassifizierung

Um ein Modell für die benutzerdefinierte Klassifizierung zu trainieren, definieren Sie die Kategorien und stellen Beispieldokumente bereit, um das benutzerdefinierte Modell zu trainieren. Sie trainieren das Modell entweder im Modus mit mehreren Klassen oder im Modus mit mehreren Bezeichnungen. Multi-class Der Modus ordnet jedem Dokument eine einzelne Klasse zu. Multi-label mode ordnet jedem Dokument eine oder mehrere Klassen zu.

Die benutzerdefinierte Klassifizierung unterstützt zwei Arten von Klassifikatormodellen: Klartextmodelle und native Dokumentmodelle. Ein Nur-Text-Modell klassifiziert Dokumente anhand ihres Textinhalts. Ein systemeigenes Dokumentenmodell klassifiziert Dokumente auch auf der Grundlage von Textinhalten. Ein systemeigenes Dokumentenmodell kann auch zusätzliche Signale verwenden, z. B. aus dem Layout des Dokuments. Sie trainieren ein systemeigenes Dokumentenmodell mit systemeigenen Dokumenten, damit das Modell die Layoutinformationen lernt.

Plain-text Modelle haben die folgenden Eigenschaften:

  • Sie trainieren das Modell mit UTF-8 codierten Textdokumenten.

  • Sie können das Modell anhand von Dokumenten in einer der folgenden Sprachen trainieren: Englisch, Spanisch, Deutsch, Italienisch, Französisch oder Portugiesisch.

  • Die Schulungsdokumente für einen bestimmten Klassifikator müssen alle dieselbe Sprache verwenden.

  • Die Schulungsdokumente sind Klartext, sodass für die Textextraktion keine zusätzlichen Gebühren anfallen.

Systemeigene Dokumentenmodelle weisen die folgenden Eigenschaften auf:

  • Sie trainieren das Modell mithilfe halbstrukturierter Dokumente, zu denen die folgenden Dokumenttypen gehören:

    • Digitale und gescannte PDF-Dokumente.

    • Word-Dokumente (DOCX).

    • Bilder: JPG-Dateien, PNG-Dateien und einseitige TIFF-Dateien.

    • Textract-API-Ausgabe von JSON-Dateien.

  • Sie trainieren das Modell anhand englischer Dokumente.

  • Wenn Ihre Schulungsunterlagen gescannte Dokumentdateien enthalten, fallen zusätzliche Gebühren für die Textextraktion an. Weitere Informationen finden Sie auf der Seite Amazon Comprehend Pricing.

Sie können jeden der unterstützten Dokumenttypen anhand eines der beiden Modelltypen klassifizieren. Für genaueste Ergebnisse empfehlen wir jedoch, ein Klartextmodell zur Klassifizierung von Klartextdokumenten und ein systemeigenes Dokumentmodell zur Klassifizierung halbstrukturierter Dokumente zu verwenden.