

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Eingaben für benutzerdefinierte Analysen in Echtzeit
<a name="idp-inputs-sync"></a>

Bei der Echtzeitanalyse mit benutzerdefinierten Modellen wird ein einzelnes Dokument als Eingabe verwendet. In den folgenden Themen werden die Eingabedokumenttypen beschrieben, die Sie verwenden können.

**Topics**
+ [Dokumente im Nur-Text-Format](#idp-inputs-sync-text)
+ [Halbstrukturierte Dokumente](#idp-inputs-sync-semi)
+ [Bilddateien und gescannte PDF-Dateien](#idp-inputs-sync-ocr)
+ [Amazon Textract Textract-Ausgabe](#idp-inputs-sync-textract)
+ [Maximale Dokumentengrößen für Echtzeitanalysen](#idp-inputs-sync-sizes)
+ [Fehler in halbstrukturierten Dokumenten](#idp-inputs-sync-err)

## Dokumente im Nur-Text-Format
<a name="idp-inputs-sync-text"></a>

Stellen Sie das Eingabedokument als UTF-8-formatierten Text bereit. 

## Halbstrukturierte Dokumente
<a name="idp-inputs-sync-semi"></a>

Halbstrukturierte Dokumente umfassen native PDF-Dokumente und Word-Dokumente. 

Standardmäßig verwendet die benutzerdefinierte Echtzeitanalyse den Amazon Comprehend Comprehend-Parser, um den Text aus Word-Dateien und digitalen PDF-Dateien zu extrahieren. Bei PDF-Dateien können Sie diese Standardeinstellung überschreiben und Amazon Textract verwenden, um den Text zu extrahieren. Siehe [Optionen für die Textextraktion festlegen](idp-set-textract-options.md).

## Bilddateien und gescannte PDF-Dateien
<a name="idp-inputs-sync-ocr"></a>

Zu den unterstützten Bildtypen gehören JPEG, PNG und TIFF.

Standardmäßig verwendet die benutzerdefinierte Entitätserkennung den Amazon Textract `DetectDocumentText` Textract-API-Vorgang, um den Text aus Bilddateien und gescannten PDF-Dateien zu extrahieren. Sie können diese Standardeinstellung überschreiben, um stattdessen den `AnalyzeDocument` API-Vorgang zu verwenden. Siehe [Optionen für die Textextraktion festlegen](idp-set-textract-options.md).

## Amazon Textract Textract-Ausgabe
<a name="idp-inputs-sync-textract"></a>

Sie können die JSON-Ausgabe der Amazon Textract `DetectDocumentText` Textract-API oder `AnalyzeDocument` -API als Eingabe für die Echtzeit-API-Operationen zur benutzerdefinierten Klassifizierung und benutzerdefinierten Entitätserkennung bereitstellen. Amazon Comprehend unterstützt diesen Eingabetyp für die Echtzeit-API-Operationen, jedoch nicht für die Konsole.

## Maximale Dokumentengrößen für Echtzeitanalysen
<a name="idp-inputs-sync-sizes"></a>

Für alle Eingabedokumenttypen beträgt das Maximum der Eingabedatei eine Seite mit nicht mehr als 10.000 Zeichen.

Die folgende Tabelle zeigt die maximalen Dateigrößen für Eingabedokumente. 


| Dateityp | Maximale Größe (API) | Maximale Größe (Konsole) | 
| --- | --- | --- | 
| UTF-8-Textdokumente | 10 KB | 10 KB | 
| PDF-Dokumente | 10 MB | 5 MB | 
| Word-Dokumente | 10 MB | 1 MB | 
| Abbildungsdateien | 10 MB | 5 MB | 
| Textausgabedateien | 1 MB | – | 

## Fehler in halbstrukturierten Dokumenten
<a name="idp-inputs-sync-err"></a>

 Bei der Operation [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)oder der [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API können beim Extrahieren von Text aus einem halbstrukturierten Dokument oder einer Bilddatei Fehler auf Dokument- oder Seitenebene auftreten.

### Fehler auf Seitenebene
<a name="idp-inputs-sync-page-err"></a>

 Wenn bei der [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API-Operation [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)oder bei der Verarbeitung einer Seite im Eingabedokument Fehler auftreten, enthält die API-Antwort für jeden [Fehler einen Eintrag in der Fehlerliste](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html).

Der Eintrag `ErrorCode` in der Fehlerliste enthält einen der folgenden Werte:
+ TEXTRACT\$1BAD\$1PAGE — Amazon Textract kann die Seite nicht lesen. Weitere Informationen zu Seitenbeschränkungen in Amazon Textract finden Sie unter [Seitenkontingente in Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html).
+ TEXTRACT\$1PROVISIONED\$1THROUGHPUT\$1EXCEEDEED — Die Anzahl der Anfragen hat Ihr Durchsatzlimit überschritten. Weitere Informationen zu Durchsatzquoten in Amazon Textract finden Sie unter [Standardkontingente in Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html).
+ PAGE\$1CHARACTERS\$1EXCEEDED — Zu viele Textzeichen auf der Seite (maximal 10.000 Zeichen).
+ PAGE\$1SIZE\$1EXCEEDED — Die maximale Seitengröße beträgt 10 MB.
+ INTERNAL\$1SERVER\$1ERROR — Bei der Anfrage ist ein Dienstproblem aufgetreten. Versuchen Sie die API-Anfrage erneut.

### Fehler auf Dokumentebene
<a name="idp-inputs-sync-doc-err"></a>

Wenn der [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API-Vorgang [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)oder einen Fehler auf Dokumentebene in Ihrem Eingabedokument feststellt, gibt die API eine Fehlerantwort zurück. `InvalidRequestException` 

In der Fehlerantwort enthält das **Reason** Feld den Wert. `INVALID_DOCUMENT` 

Das **Detail** Feld enthält einen der folgenden Werte:
+ DOCUMENT\$1SIZE\$1EXCEEDED — Die Dokumentgröße ist zu groß. Überprüfen Sie die Größe Ihrer Datei und senden Sie die Anfrage erneut.
+ UNSUPPORTED\$1DOC\$1TYPE — Der Dokumenttyp wird nicht unterstützt. Überprüfen Sie den Dateityp und senden Sie die Anfrage erneut.
+ PAGE\$1LIMIT\$1EXCEEDED — Zu viele Seiten im Dokument. Überprüfen Sie die Anzahl der Seiten in Ihrer Datei und senden Sie die Anfrage erneut.
+ TEXTRACT\$1ACCESS\$1DENIED\$1EXCEPTION — Zugriff auf Amazon Textract verweigert. Stellen Sie sicher, dass Ihr Konto berechtigt ist, die Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)- und [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)API-Operationen zu verwenden, und reichen Sie die Anfrage erneut ein.