Dokumente im Nur-Text-Format Semi-structured -Documents Bilddateien und gescannte PDF-Dateien Amazon Textract Textract-Ausgabe-JSON-Dateien

Eingaben für asynchrone benutzerdefinierte Analysen

Sie können mehrere Dokumente in einen benutzerdefinierten asynchronen Analyseauftrag eingeben. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können. Die maximale Dateigröße hängt vom Typ des Eingabedokuments ab.

Themen

Dokumente im Nur-Text-Format
Semi-structured -Documents
Bilddateien und gescannte PDF-Dateien
Amazon Textract Textract-Ausgabe-JSON-Dateien

Dokumente im Nur-Text-Format

Stellen Sie alle Eingabedokumente im Klartext-Format als UTF-8-formatted Text bereit. In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.

Anmerkung

Diese Grenzwerte gelten, wenn es sich bei allen Eingabedateien um reinen Text handelt.

Description	Quota/Guideline
Maximale Dateigröße für ein Dokument pro Dateiformat (benutzerdefinierte Klassifizierung)	1 Byte — 10 MB
Größe des Dokuments (benutzerdefinierte Entitätserkennung)	1 Byte — 1 MB
Maximale Anzahl von Dateien, ein Dokument pro Datei	1 000 000
Maximale Anzahl von Zeilen, ein Dokument pro Zeile (für alle angeforderten Dateien)	1 000 000
Korpusgröße des Dokuments (alle Dokumente im Klartext zusammengefasst)	1 Byte — 5 GB

Semi-structured -Documents

Semi-structured Zu den Dokumenten gehören native PDF-Dokumente und Word-Dokumente.

In der folgenden Tabelle sind die maximalen Dateigrößen und andere Richtlinien aufgeführt.

Description	Quota/Guideline
Größe des Dokuments (PDF)	1 Byte — 50 MB
Größe des Dokuments (Docx)	1 Byte — 5 MB
Maximale Anzahl von Dateien	500
Maximale Anzahl von Seiten für eine PDF- oder Docx-Datei	100
Korpusgröße des Dokuments nach der Textextraktion (Klartext, alle Dateien zusammen)	1 Byte — 5 GB

Standardmäßig verwendet die benutzerdefinierte Analyse den Amazon Comprehend Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Bei PDF-Dateien können Sie diese Standardeinstellung überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe Optionen für die Textextraktion festlegen.

Bilddateien und gescannte PDF-Dateien

Die benutzerdefinierte Analyse unterstützt JPEG-, PNG- und TIFF-Bilder.

In der folgenden Tabelle sind die maximalen Dateigrößen für Bilder aufgeführt. Für gescannte PDF-Dateien gelten dieselben Höchstgrößen wie für native PDF-Dateien.

Description	Quota/Guideline
Bildgröße (JPG oder PNG)	1 Byte — 10 MB
Bildgröße (TIFF)	1 Byte — 10 MB. Maximal eine Seite.

Weitere Informationen zu Bildern finden Sie unterBewährte Methoden für Bilder.

Standardmäßig verwendet Amazon Comprehend den Amazon Textract DetectDocumentText Textract-API-Vorgang, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diese Standardeinstellung überschreiben, um stattdessen den AnalyzeDocument API-Vorgang zu verwenden. Siehe Optionen für die Textextraktion festlegen.

Amazon Textract Textract-Ausgabe-JSON-Dateien

Für die benutzerdefinierte Entitätserkennung, aber nicht für die benutzerdefinierte Klassifizierung, können Sie die Ausgabedatei des Amazon Textract AnalyzeDocument Textract-API-Vorgangs als Eingabe für Analysejobs bereitstellen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Eingaben für Echtzeitanalysen

Optionen für die Textextraktion festlegen