Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole)
Sie können mithilfe der Konsole einen benutzerdefinierten Klassifikator erstellen und trainieren und dann den benutzerdefinierten Klassifikator verwenden, um Ihre Dokumente zu analysieren.
Um einen benutzerdefinierten Klassifikator zu trainieren, benötigen Sie eine Reihe von Schulungsdokumenten. Sie kennzeichnen diese Dokumente mit den Kategorien, die der Dokumentenklassifizierer erkennen soll. Informationen zur Vorbereitung Ihrer Schulungsdokumente finden Sie unterVorbereitung von Trainingsdaten für Klassifikatoren.
So erstellen und trainieren Sie ein Klassifizierungsmodell für Dokumente
-
Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS Management Console und öffnen Sie sie unter https://console.aws.amazon.com/comprehend/
-
Wählen Sie im linken Menü Anpassung und dann Benutzerdefinierte Klassifizierung aus.
-
Wählen Sie Neues Modell erstellen aus.
-
Geben Sie unter Modelleinstellungen einen Modellnamen für den Klassifikator ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.
(Optional) Geben Sie einen Versionsnamen ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.
-
Wählen Sie die Sprache der Schulungsunterlagen aus. Informationen zu den Sprachen, die von Klassifikatoren unterstützt werden, finden Sie unterModelle zur Trainingsklassifizierung.
-
(Optional) Wenn Sie die Daten auf dem Speichervolume verschlüsseln möchten, während Amazon Comprehend Ihren Trainingsjob verarbeitet, wählen Sie Classifier-Verschlüsselung. Wählen Sie dann aus, ob Sie einen KMS Schlüssel verwenden möchten, der mit Ihrem aktuellen Konto verknüpft ist, oder einen Schlüssel von einem anderen Konto.
Wenn Sie einen Schlüssel verwenden, der mit dem aktuellen Konto verknüpft ist, wählen Sie die Schlüssel-ID als KMSSchlüssel-ID.
Wenn Sie einen Schlüssel verwenden, der mit einem anderen Konto verknüpft ist, geben Sie die ARN für die Schlüssel-ID unter KMSSchlüssel einARN.
Anmerkung
Weitere Informationen zur Erstellung und Verwendung von KMS Schlüsseln und zur zugehörigen Verschlüsselung finden Sie unter AWS Key Management Service (AWS KMS).
-
Wählen Sie unter Datenspezifikationen den zu verwendenden Trainingsmodelltyp aus.
Nur-Text-Dokumente: Wählen Sie diese Option, um ein Nur-Text-Modell zu erstellen. Trainieren Sie das Modell mithilfe von Klartextdokumenten.
Systemeigene Dokumente: Wählen Sie diese Option, um ein systemeigenes Dokumentmodell zu erstellen. Trainieren Sie das Modell mit systemeigenen Dokumenten (WordPDF, Bildern).
-
Wählen Sie das Datenformat Ihrer Trainingsdaten. Informationen zu den Datenformaten finden Sie unterDateiformate für das Classifier-Training.
CSVDatei: Wählen Sie diese Option, wenn Ihre Trainingsdaten das CSV Dateiformat verwenden.
Erweitertes Manifest: Wählen Sie diese Option, wenn Sie Ground Truth verwendet haben, um erweiterte Manifestdateien für Ihre Trainingsdaten zu erstellen. Dieses Format ist verfügbar, wenn Sie Nur-Text-Dokumente als Trainingsmodelltyp ausgewählt haben.
-
Wählen Sie den zu verwendenden Klassifizierungsmodus aus.
Einzellabelmodus: Wählen Sie diesen Modus, wenn sich die Kategorien, die Sie Dokumenten zuweisen, gegenseitig ausschließen und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein Etikett zuzuweisen. In Amazon Comprehend API wird der Single-Label-Modus als Mehrklassenmodus bezeichnet.
Multi-Label-Modus: Wählen Sie diesen Modus, wenn mehrere Kategorien gleichzeitig auf ein Dokument angewendet werden können und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein oder mehrere Labels zuzuweisen.
-
Wenn Sie den Modus „Mehrere Etiketten“ wählen, können Sie das Trennzeichen für Beschriftungen auswählen. Verwenden Sie dieses Trennzeichen, um Bezeichnungen voneinander zu trennen, wenn es mehrere Klassen für ein Schulungsdokument gibt. Das Standardtrennzeichen ist der senkrechte Strich.
-
(Optional) Wenn Sie Augmented Manifest als Datenformat ausgewählt haben, können Sie bis zu fünf Augmented Manifest-Dateien eingeben. Jede erweiterte Manifest-Datei enthält entweder einen Trainingsdatensatz oder einen Testdatensatz. Sie müssen mindestens einen Trainingsdatensatz angeben. Testdatensätze sind optional. Gehen Sie wie folgt vor, um die erweiterten Manifestdateien zu konfigurieren:
-
Erweitern Sie unter Trainings- und Testdatensatz den Bereich Eingabeposition.
-
Wählen Sie unter Datensatztyp die Option Trainingsdaten oder Testdaten aus.
-
Geben Sie für den S3-Speicherort der erweiterten SageMaker Ground Truth Manifest-Datei den Speicherort des Amazon S3 S3-Buckets ein, der die Manifestdatei enthält, oder navigieren Sie zu diesem, indem Sie Browse S3 wählen. Die IAM Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen.
-
Geben Sie für die Attributnamen den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Beschriftungsaufträgen enthält, fügen Sie für jeden Auftrag ein Attribut hinzu.
Um einen weiteren Eingabeort hinzuzufügen, wählen Sie Eingabeposition hinzufügen und konfigurieren Sie dann den nächsten Speicherort.
-
-
(Optional) Wenn Sie CSVDatei als Datenformat ausgewählt haben, gehen Sie wie folgt vor, um den Trainingsdatensatz und den optionalen Testdatensatz zu konfigurieren:
-
Geben Sie unter Trainingsdatensatz den Speicherort des Amazon S3 S3-Buckets ein, der Ihre CSV Trainingsdatendatei enthält, oder navigieren Sie zu diesem, indem Sie Browse S3 wählen. Die IAM Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen.
(Optional) Wenn Sie Native Dokumente als Trainingsmodelltyp wählen, geben Sie auch den URL Amazon S3 S3-Ordner an, der die Trainingsbeispieldateien enthält.
-
Wählen Sie unter Testdatensatz aus, ob Sie zusätzliche Daten für Amazon Comprehend bereitstellen, um das trainierte Modell zu testen.
-
Autosplit: Autosplit wählt automatisch 10% Ihrer Trainingsdaten aus, um sie für die Verwendung als Testdaten zu reservieren.
(Optional) Vom Kunden bereitgestellt: Geben Sie URL die CSV Testdatendatei in Amazon S3 ein. Sie können auch zu seinem Speicherort in Amazon S3 navigieren und Ordner auswählen wählen.
(Optional) Wenn Sie Native Dokumente als Trainingsmodelltyp wählen, geben Sie auch den URL Amazon S3 S3-Ordner an, der die Testdateien enthält.
-
-
-
(Optional) Im Lesemodus für Dokumente können Sie die standardmäßigen Textextraktionsaktionen überschreiben. Diese Option ist für Klartext-Modelle nicht erforderlich, da sie für die Textextraktion für gescannte Dokumente gilt. Weitere Informationen finden Sie unter Festlegen von Optionen für die Textextraktion.
-
(Optional für Klartextmodelle) Geben Sie unter Ausgabedaten den Speicherort eines Amazon S3 S3-Buckets ein, um Trainingsausgabedaten wie die Konfusionsmatrix zu speichern. Weitere Informationen finden Sie unter Verwechslungsmatrix.
(Optional) Wenn Sie das Ausgabeergebnis Ihres Trainingsjobs verschlüsseln möchten, wählen Sie Verschlüsselung. Wählen Sie dann aus, ob Sie einen KMS Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen Schlüssel von einem anderen Konto.
Wenn Sie einen Schlüssel verwenden, der dem Girokonto zugeordnet ist, wählen Sie den Schlüsselalias für die KMSSchlüssel-ID.
Wenn Sie einen Schlüssel verwenden, der mit einem anderen Konto verknüpft ist, geben Sie den Alias oder die ID ARN für den Schlüssel unter KMSSchlüssel-ID ein.
-
Wählen Sie als IAMRolle die Option Vorhandene IAM Rolle auswählen und wählen Sie dann eine vorhandene IAM Rolle aus, die über Leseberechtigungen für den S3-Bucket verfügt, der Ihre Schulungsdokumente enthält. Die Rolle muss über eine Vertrauensrichtlinie verfügen, die mit beginnt,
comprehend.amazonaws.com
um gültig zu sein.Wenn Sie noch keine IAM Rolle mit diesen Berechtigungen haben, wählen Sie Rolle erstellen aus, um eine IAM Rolle zu erstellen. Wählen Sie die Zugriffsberechtigungen aus, die Sie dieser Rolle gewähren möchten, und wählen Sie dann ein Namenssuffix, um die Rolle von den IAM Rollen in Ihrem Konto zu unterscheiden.
Anmerkung
Für verschlüsselte Eingabedokumente muss die verwendete IAM Rolle auch über eine
kms:Decrypt
entsprechende Berechtigung verfügen. Weitere Informationen finden Sie unter Für die Verwendung der Verschlüsselung sind Berechtigungen erforderlich KMS. -
(Optional) Um Ihre Ressourcen in Amazon Comprehend von a aus zu startenVPC, geben Sie die VPC ID unter ein VPCoder wählen Sie die ID aus der Drop-down-Liste aus.
Wählen Sie das Subnetz unter Subnetze (en) aus. Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.
Wählen Sie unter Sicherheitsgruppe (n) die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.
Anmerkung
Wenn Sie einen Job VPC mit Ihrer Klassifizierung verwenden, müssen die für die Operationen Create und Start
DataAccessRole
verwendeten über Berechtigungen für den Job verfügenVPC, der auf die Eingabedokumente und den Ausgabe-Bucket zugreift. -
(Optional) Um dem benutzerdefinierten Klassifikator ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein. Wählen Sie Add tag. Um dieses Paar vor der Erstellung des Klassifikators zu entfernen, wählen Sie Tag entfernen aus. Weitere Informationen finden Sie unter Markieren Ihrer -Ressourcen.
-
Wählen Sie Create (Erstellen) aus.
In der Konsole wird die Seite „Klassifikatoren“ angezeigt. Der neue Klassifikator wird in der Tabelle Submitted
als Status angezeigt. Wenn der Klassifikator mit der Verarbeitung der Schulungsdokumente beginnt, ändert sich der Status in. Training
Wenn ein Klassifikator einsatzbereit ist, ändert sich der Status in oder. Trained
Trained with warnings
Wenn der Status lautetTRAINED_WITH_WARNINGS
, überprüfen Sie den Ordner mit übersprungenen Dateien im. Klassifizieren Sie die Trainingsleistung
Wenn Amazon Comprehend bei der Erstellung oder Schulung auf Fehler gestoßen ist, ändert sich der Status auf. In error
Sie können einen Klassifikator-Job in der Tabelle auswählen, um weitere Informationen über den Klassifikator, einschließlich aller Fehlermeldungen, zu erhalten.