Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sie können mehrere Dokumente in einen benutzerdefinierten asynchronen Analyseauftrag eingeben. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können. Die maximale Dateigröße hängt vom Typ des Eingabedokuments ab.
Themen
Dokumente im Nur-Text-Format
Stellen Sie alle Eingabedokumente im Klartext-Format als UTF-8-formatierten Text bereit. In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.
Anmerkung
Diese Grenzwerte gelten, wenn es sich bei allen Eingabedateien um reinen Text handelt.
Beschreibung | Kontingent/Richtlinie |
---|---|
Maximale Dateigröße für ein Dokument pro Dateiformat (benutzerdefinierte Klassifizierung) | 1 Byte — 10 MB |
Größe des Dokuments (benutzerdefinierte Entitätserkennung) | 1 Byte — 1 MB |
Maximale Anzahl von Dateien, ein Dokument pro Datei | 1 000 000 |
Maximale Anzahl von Zeilen, ein Dokument pro Zeile (für alle angeforderten Dateien) | 1 000 000 |
Korpusgröße des Dokuments (alle Dokumente im Klartext zusammengefasst) | 1 Byte — 5 GB |
Halbstrukturierte Dokumente
Halbstrukturierte Dokumente umfassen native PDF-Dokumente und Word-Dokumente.
In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.
Beschreibung | Kontingent/Richtlinie |
---|---|
Größe des Dokuments (PDF) | 1 Byte — 50 MB |
Größe des Dokuments (Docx) | 1 Byte — 5 MB |
Maximale Anzahl von Dateien | 500 |
Maximale Anzahl von Seiten für eine PDF- oder Docx-Datei | 100 |
Korpusgröße des Dokuments nach der Textextraktion (Klartext, alle Dateien zusammen) | 1 Byte — 5 GB |
Standardmäßig verwendet die benutzerdefinierte Analyse den Amazon Comprehend Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Bei PDF-Dateien können Sie diese Standardeinstellung überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Optionen für die Textextraktion festlegen.
Bilddateien und gescannte PDF-Dateien
Die benutzerdefinierte Analyse unterstützt JPEG-, PNG- und TIFF-Bilder.
In der folgenden Tabelle sind die maximalen Dateigrößen für Bilder aufgeführt. Für gescannte PDF-Dateien gelten dieselben Höchstgrößen wie für native PDF-Dateien.
Beschreibung | Kontingent/Richtlinie |
---|---|
Bildgröße (JPG oder PNG) | 1 Byte — 10 MB |
Bildgröße (TIFF) | 1 Byte — 10 MB. Maximal eine Seite. |
Weitere Informationen zu Bildern finden Sie unterBewährte Methoden für Bilder.
Standardmäßig verwendet Amazon Comprehend den Amazon Textract DetectDocumentText
Textract-API-Vorgang, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diese Standardeinstellung überschreiben, um stattdessen den AnalyzeDocument
API-Vorgang zu verwenden. Siehe Optionen für die Textextraktion festlegen.
Amazon Textract Textract-Ausgabe-JSON-Dateien
Für die benutzerdefinierte Entitätserkennung, aber nicht für die benutzerdefinierte Klassifizierung, können Sie die Ausgabedatei des Amazon Textract AnalyzeDocument
Textract-API-Vorgangs als Eingabe für Analysejobs bereitstellen.