Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
DetectDocumentText
Erkennt Text im Eingabedokument. Amazon Textract kann Textzeilen und Wörter erkennen, aus denen eine Textzeile besteht. Das Eingabedokument muss ein Bild im JPEG-, PNG-, PDF- oder TIFF-Format sein.DetectDocumentText
gibt den erkannten Text in einem Array vonBlock-Objekte.
Jede Dokumentseite ist als verknüpftBlock
vom Typ PAGE. Jede SEITEBlock
object ist das übergeordnete Element von LINEBlock
-Objekte, die die Zeilen des erkannten Textes auf einer Seite darstellen. EINE ZEILEBlock
object ist ein übergeordnetes Element für jedes Wort, aus dem die Zeile besteht. Wörter werden dargestellt durchBlock
Objekte des Typs WORD.
DetectDocumentText
ist ein synchroner Vorgang. Um Dokumente asynchron zu analysieren, verwenden SieStartDocumentTextDetectionaus.
Weitere Informationen finden Sie unterTexterkennung von Dokumentenaus.
Anforderungssyntax
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
Anfrageparameter
Die Anforderung akzeptiert die folgenden Daten im JSON-Format.
- Document
-
Das Eingabedokument als Base64-codierte Bytes oder ein Amazon S3 S3-Objekt. Wenn Sie die AWS CLI verwenden, um Amazon Textract Textract-Vorgänge aufzurufen, können Sie keine Bildbytes übergeben. Das Dokument muss ein Bild im JPEG- oder PNG-Format sein.
Wenn Sie ein AWS SDK zum Aufrufen von Amazon Textract verwenden, müssen Sie möglicherweise keine Base64-Codierung von Image-Bytes, die mit dem
Bytes
field.Typ: Document Objekt
Erforderlich: Ja
Antwortsyntax
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Antwortelemente
Wenn die Aktion erfolgreich ist, sendet der Service eine HTTP 200-Antwort zurück.
Die folgenden Daten werden vom Service im JSON-Format zurückgegeben.
- Blocks
-
Ein Array von
Block
-Objekte, die den Text enthalten, der im Dokument erkannt wurde.Type: Array-ReiheBlockObjekte
- DetectDocumentTextModelVersion
-
Type: String (Zeichenfolge)
- DocumentMetadata
-
Metadaten über das Dokument. Es enthält die Anzahl der Seiten, die im Dokument erkannt werden.
Typ: DocumentMetadata Objekt
Fehler
- AccessDeniedException
-
Sie sind nicht berechtigt, die Aktion auszuführen. Verwenden Sie den Amazon-Ressourcennamen (ARN) der IAM-Rolle oder eines autorisierten Benutzers, um den Vorgang auszuführen.
HTTP-Statuscode: 400
- BadDocumentException
-
Amazon Textract kann das Dokument nicht lesen. Weitere Informationen zu den Beleglimits in Amazon Textract finden Sie unterHard Limits in Amazon Textractaus.
HTTP-Statuscode: 400
- DocumentTooLargeException
-
Das Dokument kann nicht verarbeitet werden, da es zu groß ist. Die maximale Dokumentgröße für synchrone Operationen 10 MB. Die maximale Dokumentgröße für asynchrone Vorgänge beträgt 500 MB für PDF-Dateien.
HTTP-Statuscode: 400
- InternalServerError
-
Amazon Textract hat ein Service-Problem festgestellt. Wiederholen Sie den Aufruf.
HTTP-Statuscode: 500
- InvalidParameterException
-
Ein Eingabeparameter verletzt eine Beschränkung. Zum Beispiel wird bei synchronen Operationen ein
InvalidParameterException
Ausnahme tritt auf, wenn keiner derS3Object
oderBytes
Werte werden imDocument
Anforderungsparameter. Validieren Sie den Parameter, bevor Sie die API-Operation erneut aufrufen.HTTP-Statuscode: 400
- InvalidS3ObjectException
-
Amazon Textract kann auf das in der Anforderung angegebene S3-Objekt nicht zugreifen. für weitere Informationen,Konfigurieren des Zugriffs auf Amazon S3Informationen zur Problembehebung finden Sie unterFehlerbehebung für Amazon S3
HTTP-Statuscode: 400
- ProvisionedThroughputExceededException
-
Die Anzahl der Anforderungen hat das Durchsatzlimit überschritten. Wenn Sie dieses Limit erhöhen müssen, wenden Sie sich an Amazon Textract.
HTTP-Statuscode: 400
- ThrottlingException
-
Amazon Textract kann die Anforderung vorübergehend nicht verarbeiten. Wiederholen Sie den Aufruf.
HTTP-Statuscode: 500
- UnsupportedDocumentException
-
Das Format des Eingabedokuments wird nicht unterstützt. Dokumente für Operationen können im PNG-, JPEG-, PDF- oder TIFF-Format vorliegen.
HTTP-Statuscode: 400
Weitere Informationen finden Sie unter:
Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS-SDKs finden Sie unter: