Anforderungssyntax Anfrageparameter Antwortsyntax Antwortelemente Fehler Weitere Informationen finden Sie unter:

DetectDocumentText

Erkennt Text im Eingabedokument. Amazon Textract kann Textzeilen und Wörter erkennen, aus denen eine Textzeile besteht. Das Eingabedokument muss ein Bild im JPEG-, PNG-, PDF- oder TIFF-Format sein.DetectDocumentTextgibt den erkannten Text in einem Array vonBlock-Objekte.

Jede Dokumentseite ist als verknüpftBlockvom Typ PAGE. Jede SEITEBlockobject ist das übergeordnete Element von LINEBlock-Objekte, die die Zeilen des erkannten Textes auf einer Seite darstellen. EINE ZEILEBlockobject ist ein übergeordnetes Element für jedes Wort, aus dem die Zeile besteht. Wörter werden dargestellt durchBlockObjekte des Typs WORD.

DetectDocumentTextist ein synchroner Vorgang. Um Dokumente asynchron zu analysieren, verwenden SieStartDocumentTextDetectionaus.

Weitere Informationen finden Sie unterTexterkennung von Dokumentenaus.

Anforderungssyntax


{
   "Document": { 
      "Bytes": blob,
      "S3Object": { 
         "Bucket": "string",
         "Name": "string",
         "Version": "string"
      }
   }
}

Anfrageparameter

Die Anforderung akzeptiert die folgenden Daten im JSON-Format.

Document

Das Eingabedokument als Base64-codierte Bytes oder ein Amazon S3 S3-Objekt. Wenn Sie die AWS CLI verwenden, um Amazon Textract Textract-Vorgänge aufzurufen, können Sie keine Bildbytes übergeben. Das Dokument muss ein Bild im JPEG- oder PNG-Format sein.

Wenn Sie ein AWS SDK zum Aufrufen von Amazon Textract verwenden, müssen Sie möglicherweise keine Base64-Codierung von Image-Bytes, die mit demBytesfield.

Typ: Document Objekt

Erforderlich: Ja

Antwortsyntax


{
   "Blocks": [ 
      { 
         "BlockType": "string",
         "ColumnIndex": number,
         "ColumnSpan": number,
         "Confidence": number,
         "EntityTypes": [ "string" ],
         "Geometry": { 
            "BoundingBox": { 
               "Height": number,
               "Left": number,
               "Top": number,
               "Width": number
            },
            "Polygon": [ 
               { 
                  "X": number,
                  "Y": number
               }
            ]
         },
         "Id": "string",
         "Page": number,
         "Relationships": [ 
            { 
               "Ids": [ "string" ],
               "Type": "string"
            }
         ],
         "RowIndex": number,
         "RowSpan": number,
         "SelectionStatus": "string",
         "Text": "string",
         "TextType": "string"
      }
   ],
   "DetectDocumentTextModelVersion": "string",
   "DocumentMetadata": { 
      "Pages": number
   }
}

Antwortelemente

Wenn die Aktion erfolgreich ist, sendet der Service eine HTTP 200-Antwort zurück.

Die folgenden Daten werden vom Service im JSON-Format zurückgegeben.

Blocks

Ein Array vonBlock-Objekte, die den Text enthalten, der im Dokument erkannt wurde.

Type: Array-ReiheBlockObjekte

DetectDocumentTextModelVersion

Type: String (Zeichenfolge)

DocumentMetadata

Metadaten über das Dokument. Es enthält die Anzahl der Seiten, die im Dokument erkannt werden.

Typ: DocumentMetadata Objekt

Fehler

AccessDeniedException

Sie sind nicht berechtigt, die Aktion auszuführen. Verwenden Sie den Amazon-Ressourcennamen (ARN) der IAM-Rolle oder eines autorisierten Benutzers, um den Vorgang auszuführen.

HTTP-Statuscode: 400

BadDocumentException

Amazon Textract kann das Dokument nicht lesen. Weitere Informationen zu den Beleglimits in Amazon Textract finden Sie unterHard Limits in Amazon Textractaus.

HTTP-Statuscode: 400

DocumentTooLargeException

Das Dokument kann nicht verarbeitet werden, da es zu groß ist. Die maximale Dokumentgröße für synchrone Operationen 10 MB. Die maximale Dokumentgröße für asynchrone Vorgänge beträgt 500 MB für PDF-Dateien.

HTTP-Statuscode: 400

InternalServerError

Amazon Textract hat ein Service-Problem festgestellt. Wiederholen Sie den Aufruf.

HTTP-Statuscode: 500

InvalidParameterException

Ein Eingabeparameter verletzt eine Beschränkung. Zum Beispiel wird bei synchronen Operationen einInvalidParameterExceptionAusnahme tritt auf, wenn keiner derS3ObjectoderBytesWerte werden imDocumentAnforderungsparameter. Validieren Sie den Parameter, bevor Sie die API-Operation erneut aufrufen.

HTTP-Statuscode: 400

InvalidS3ObjectException

Amazon Textract kann auf das in der Anforderung angegebene S3-Objekt nicht zugreifen. für weitere Informationen,Konfigurieren des Zugriffs auf Amazon S3Informationen zur Problembehebung finden Sie unterFehlerbehebung für Amazon S3

HTTP-Statuscode: 400

ProvisionedThroughputExceededException

Die Anzahl der Anforderungen hat das Durchsatzlimit überschritten. Wenn Sie dieses Limit erhöhen müssen, wenden Sie sich an Amazon Textract.

HTTP-Statuscode: 400

ThrottlingException

Amazon Textract kann die Anforderung vorübergehend nicht verarbeiten. Wiederholen Sie den Aufruf.

HTTP-Statuscode: 500

UnsupportedDocumentException

Das Format des Eingabedokuments wird nicht unterstützt. Dokumente für Operationen können im PNG-, JPEG-, PDF- oder TIFF-Format vorliegen.

HTTP-Statuscode: 400

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS-SDKs finden Sie unter:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AnalyzeID

GetDocumentAnalysis