DetectDocumentText - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

DetectDocumentText

Rileva il testo nel documento di input. Amazon Textract è in grado di rilevare le righe di testo e le parole che costituiscono una riga di testo. Il documento di input deve essere un'immagine in formato JPEG, PNG, PDF o TIFF.DetectDocumentTextrestituisce il testo rilevato in una matrice diBlockoggetti.

Ogni pagina del documento ha come associatoBlockdi tipo PAGE. Ogni PAGINABlockobject è il padre di LINEBlockoggetti che rappresentano le righe del testo rilevato in una pagina. RIGA DIBlockobject è un genitore per ogni parola che compone la riga. Le parole sono rappresentate daBlockoggetti di tipo WORD.

DetectDocumentTextè un'operazione sincrona. Per analizzare i documenti in modo asincrono, utilizzareStartDocumentTextDetection.

Per ulteriori informazioni, consultaRilevamento del documento.

Sintassi della richiesta

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

Parametri della richiesta

La richiesta accetta i seguenti dati in formato JSON.

Document

Il documento di input come byte con codifica base64 o un oggetto Amazon S3. Se usi la CLI di AWS per chiamare le operazioni di Amazon Textract, non puoi passare byte immagine. Il documento deve essere un'immagine in formato JPEG o PNG.

Se utilizzi un SDK AWS per chiamare Amazon Textract, potrebbe non essere necessario codificare in base a 64 byte immagine che vengono passati utilizzando ilBytes.

Tipo: Document oggetto

Campo obbligatorio: Sì

Sintassi della risposta

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

Elementi di risposta

Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.

I dati seguenti vengono restituiti in formato JSON mediante il servizio.

Blocks

Una matrice diBlockoggetti che contengono il testo rilevato nel documento.

Type: Array diBlockoggetti

DetectDocumentTextModelVersion

Type: Stringa

DocumentMetadata

Metadati sul documento. Contiene il numero di pagine rilevate nel documento.

Tipo: DocumentMetadata oggetto

Errori

AccessDeniedException

Non sei autorizzato a eseguire l'operazione. Utilizzare l'ARN (Amazon Resource Name) di un utente autorizzato o un ruolo IAM per eseguire l'operazione.

Codice di stato HTTP: 400

BadDocumentException

Amazon Textract non è in grado di leggere il documento. Per ulteriori informazioni sui limiti dei documenti in Amazon Textract, consultaLimiti rigidi per Amazon Textract.

Codice di stato HTTP: 400

DocumentTooLargeException

Il documento non può essere elaborato perché è troppo grande. La dimensione massima dei documenti per operazioni sincrone 10 MB. La dimensione massima del documento per le operazioni asincrone è di 500 MB per i file PDF.

Codice di stato HTTP: 400

InternalServerError

Amazon Textract ha riscontrato un problema del servizio. Riprova la chiamata.

Codice di stato HTTP: 500

InvalidParameterException

Un parametro di input ha violato un vincolo. Ad esempio, nelle operazioni sincrone, unInvalidParameterExceptioneccezione si verifica quando nessuno dei dueS3ObjectoBytesi valori sono forniti nelDocumentparametro della richiesta. Convalida il parametro prima di chiamare nuovamente l'operazione API.

Codice di stato HTTP: 400

InvalidS3ObjectException

Amazon Textract non è in grado di accedere all'oggetto S3 specificato nella richiesta. Per ulteriori informazioni,Configura l'accesso a Amazon S3Per informazioni sulla risoluzione dei problemi, consultaRisoluzione dei problemi Amazon S3

Codice di stato HTTP: 400

ProvisionedThroughputExceededException

Il numero di richieste ha superato il limite di throughput. Per aumentare questo limite, contatta Amazon Textract.

Codice di stato HTTP: 400

ThrottlingException

Amazon Textract non è temporaneamente in grado di elaborare la richiesta. Riprova la chiamata.

Codice di stato HTTP: 500

UnsupportedDocumentException

Il formato del documento di input non è supportato. I documenti per le operazioni possono essere in formato PNG, JPEG, PDF o TIFF.

Codice di stato HTTP: 400

Vedi anche

Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: