Bearbeitung von Dokumenten

Amazon Comprehend unterstützt die Dokumentenverarbeitung in einem Schritt zur benutzerdefinierten Klassifizierung und Erkennung benutzerdefinierter Entitäten. Sie können beispielsweise eine Mischung aus Nur-Text-Dokumenten und halbstrukturierten Dokumenten (wie PDF-Dokumenten, Microsoft Word-Dokumenten und Bildern) in einen benutzerdefinierten Analysejob eingeben.

Für Eingabedateien, die eine Textextraktion erfordern, führt Amazon Comprehend automatisch die Textextraktion durch, bevor die Analyse ausgeführt wird. Um den Textinhalt zu extrahieren, verwendet Amazon Comprehend einen internen Parser für native halbstrukturierte Dokumente und verwendet Amazon Textract Textract-APIs für Bilder und gescannte Dokumente.

Die Amazon Comprehend-Dokumentenverarbeitung ist in allen Amazon Comprehend verfügbarUnterstützte Regionen, mit Ausnahme von Asien-Pazifik (Tokio), und AWS GovCloud (US-West) unterstützt nur Klartextmodelle für die benutzerdefinierte Klassifizierung.

Die folgenden Themen enthalten Details zu den Eingabedokumenttypen, die Amazon Comprehend für benutzerdefinierte Analysen unterstützt.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

PII-Entitäten redigieren

Eingaben für Echtzeitanalysen