Modelle zur Trainingsklassifizierung - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Modelle zur Trainingsklassifizierung

Um ein Modell für die benutzerdefinierte Klassifizierung zu trainieren, definieren Sie die Kategorien und stellen Beispieldokumente bereit, um das benutzerdefinierte Modell zu trainieren. Sie trainieren das Modell entweder im Modus mit mehreren Klassen oder im Modus mit mehreren Bezeichnungen. Im Mehrklassenmodus wird jedem Dokument eine einzelne Klasse zugeordnet. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu.

Die benutzerdefinierte Klassifizierung unterstützt zwei Arten von Klassifizierungsmodellen: Klartextmodelle und native Dokumentenmodelle. Ein Nur-Text-Modell klassifiziert Dokumente anhand ihres Textinhalts. Ein systemeigenes Dokumentenmodell klassifiziert Dokumente auch anhand des Textinhalts. Ein systemeigenes Dokumentenmodell kann auch zusätzliche Signale verwenden, z. B. aus dem Layout des Dokuments. Sie trainieren ein systemeigenes Dokumentmodell mit systemeigenen Dokumenten, damit das Modell die Layoutinformationen lernt.

Klartextmodelle weisen die folgenden Eigenschaften auf:

  • Sie trainieren das Modell mit UTF -8 codierten Textdokumenten.

  • Sie können das Modell anhand von Dokumenten in einer der folgenden Sprachen trainieren: Englisch, Spanisch, Deutsch, Italienisch, Französisch oder Portugiesisch.

  • Die Schulungsdokumente für einen bestimmten Klassifikator müssen alle dieselbe Sprache verwenden.

  • Die Schulungsdokumente sind Klartext, sodass für die Textextraktion keine zusätzlichen Gebühren anfallen.

Systemeigene Dokumentenmodelle weisen die folgenden Eigenschaften auf:

  • Sie trainieren das Modell mithilfe halbstrukturierter Dokumente, zu denen die folgenden Dokumenttypen gehören:

    • Digitale und gescannte PDF Dokumente.

    • Word-Dokumente (DOCX).

    • Bilder: JPG Dateien, PNG Dateien und einseitige TIFF Dateien.

    • Textract Sie die API JSON Ausgabedateien.

  • Sie trainieren das Modell anhand englischer Dokumente.

  • Wenn Ihre Schulungsunterlagen gescannte Dokumentdateien enthalten, fallen zusätzliche Gebühren für die Textextraktion an. Weitere Informationen finden Sie auf der Seite Amazon Comprehend Pricing.

Sie können jeden der unterstützten Dokumenttypen anhand eines der beiden Modelltypen klassifizieren. Für genaueste Ergebnisse empfehlen wir jedoch, ein Klartextmodell zur Klassifizierung von Klartextdokumenten und ein systemeigenes Dokumentmodell zur Klassifizierung halbstrukturierter Dokumente zu verwenden.