Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Eingaben für asynchrone benutzerdefinierte Analysen
Sie können mehrere Dokumente in einen benutzerdefinierten asynchronen Analyseauftrag eingeben. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können. Die maximale Dateigröße variiert je nach Typ des Eingabedokuments.
Themen
Klartextdokumente
Stellen Sie alle Klartext-Eingabedokumente als UTF-8-formatted Text bereit. In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.
Anmerkung
Diese Grenzwerte gelten, wenn all eEingabedateien Klartext sind.
Beschreibung | Kontingent/Anleitung |
---|---|
Maximale Dateigröße für ein Dokument pro Dateiformat (benutzerdefinierte Klassifizierung) | 1 Byte–10 MB |
Dokumentgröße (Kennung benutzerdefinierter Entitäten) | 1 Byte–1 MB |
Maximale Anzahl von Dateien, ein Dokument pro Datei | 1 000 000 |
Maximale Anzahl von Zeilen, ein Dokument pro Zeile (für alle Dateien in Anforderung) | 1 000 000 |
Dokumentkorpusgröße (alle Dokumente im Klartext kombiniert) | 1 Byte–5 GB |
Semistrukturierte Dokumente
Zu den halbstrukturierten Dokumenten gehören native PDF-Dokumente und Word-Dokumente.
In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.
Beschreibung | Kontingent/Anleitung |
---|---|
Dokumentgröße (PDF) | 1 Byte–50 MB |
Dokumentgröße (Docx) | 1 Byte–5 MB |
Maximale Anzahl von Dateien | 500 |
Maximale Anzahl von Seiten für eine PDF- oder Docx-Datei | 100 |
Dokumentkorpusgröße nach Textextraktion (Klartext, alle Dateien kombiniert) | 1 Byte–5 GB |
Standardmäßig verwendet die benutzerdefinierte Analyse den Amazon Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Für PDF-Dateien können Sie diesen Standard überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Festlegen von Optionen für die Textextraktion.
Bilddateien und gescannte PDF-Dateien
Benutzerdefinierte Analysen unterstützen JPEG-, PNG- und TIFF-Bilder.
In der folgenden Tabelle sind die maximalen Dateigrößen für Bilder aufgeführt. Gescannte PDF-Dateien unterliegen denselben maximalen Größen wie native PDF-Dateien.
Beschreibung | Kontingent/Anleitung |
---|---|
Bildgröße (JPG oder PNG) | 1 Byte–10 MB |
Bildgröße (TIFF) | 1 Byte–10 MB. Maximal eine Seite. |
Weitere Informationen zu Bildern finden Sie unter Bewährte Methoden für Images.
Standardmäßig verwendet Amazon Comprehend die Amazon Textract DetectDocumentText
API-Operation, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diesen Standard überschreiben, um stattdessen die AnalyzeDocument
-API-Operation zu verwenden. Siehe Festlegen von Optionen für die Textextraktion.
Amazon-Textract-Ausgabe-JSON-Dateien
Für die Erkennung benutzerdefinierter Entitäten, aber nicht für die benutzerdefinierte Klassifizierung können Sie die Ausgabedatei aus der Amazon TextractAnalyzeDocument
-API-Operation als Eingabe für Analyseaufträge bereitstellen.