Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
DetectDocumentText
Rileva il testo nel documento di input. Amazon Textract è in grado di rilevare le righe di testo e le parole che costituiscono una riga di testo. Il documento di input deve essere un'immagine in formato JPEG, PNG, PDF o TIFF.DetectDocumentTextrestituisce il testo rilevato in una matrice diBlockoggetti.
Ogni pagina del documento ha come associatoBlockdi tipo PAGE. Ogni PAGINABlockobject è il padre di LINEBlockoggetti che rappresentano le righe del testo rilevato in una pagina. RIGA DIBlockobject è un genitore per ogni parola che compone la riga. Le parole sono rappresentate daBlockoggetti di tipo WORD.
DetectDocumentTextè un'operazione sincrona. Per analizzare i documenti in modo asincrono, utilizzareStartDocumentTextDetection.
Per ulteriori informazioni, consultaRilevamento del documento.
Sintassi della richiesta
{
"Document": {
"Bytes": blob,
"S3Object": {
"Bucket": "string",
"Name": "string",
"Version": "string"
}
}
}
Parametri della richiesta
La richiesta accetta i seguenti dati in formato JSON.
- Document
-
Il documento di input come byte con codifica base64 o un oggetto Amazon S3. Se usi la CLI di AWS per chiamare le operazioni di Amazon Textract, non puoi passare byte immagine. Il documento deve essere un'immagine in formato JPEG o PNG.
Se utilizzi un SDK AWS per chiamare Amazon Textract, potrebbe non essere necessario codificare in base a 64 byte immagine che vengono passati utilizzando il
Bytes.Tipo: Document oggetto
Campo obbligatorio: Sì
Sintassi della risposta
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Elementi di risposta
Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.
I dati seguenti vengono restituiti in formato JSON mediante il servizio.
- Blocks
-
Una matrice di
Blockoggetti che contengono il testo rilevato nel documento.Type: Array diBlockoggetti
- DetectDocumentTextModelVersion
-
Type: Stringa
- DocumentMetadata
-
Metadati sul documento. Contiene il numero di pagine rilevate nel documento.
Tipo: DocumentMetadata oggetto
Errori
- AccessDeniedException
-
Non sei autorizzato a eseguire l'operazione. Utilizzare l'ARN (Amazon Resource Name) di un utente autorizzato o un ruolo IAM per eseguire l'operazione.
Codice di stato HTTP: 400
- BadDocumentException
-
Amazon Textract non è in grado di leggere il documento. Per ulteriori informazioni sui limiti dei documenti in Amazon Textract, consultaLimiti rigidi per Amazon Textract.
Codice di stato HTTP: 400
- DocumentTooLargeException
-
Il documento non può essere elaborato perché è troppo grande. La dimensione massima dei documenti per operazioni sincrone 10 MB. La dimensione massima del documento per le operazioni asincrone è di 500 MB per i file PDF.
Codice di stato HTTP: 400
- InternalServerError
-
Amazon Textract ha riscontrato un problema del servizio. Riprova la chiamata.
Codice di stato HTTP: 500
- InvalidParameterException
-
Un parametro di input ha violato un vincolo. Ad esempio, nelle operazioni sincrone, un
InvalidParameterExceptioneccezione si verifica quando nessuno dei dueS3ObjectoBytesi valori sono forniti nelDocumentparametro della richiesta. Convalida il parametro prima di chiamare nuovamente l'operazione API.Codice di stato HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract non è in grado di accedere all'oggetto S3 specificato nella richiesta. Per ulteriori informazioni,Configura l'accesso a Amazon S3Per informazioni sulla risoluzione dei problemi, consultaRisoluzione dei problemi Amazon S3
Codice di stato HTTP: 400
- ProvisionedThroughputExceededException
-
Il numero di richieste ha superato il limite di throughput. Per aumentare questo limite, contatta Amazon Textract.
Codice di stato HTTP: 400
- ThrottlingException
-
Amazon Textract non è temporaneamente in grado di elaborare la richiesta. Riprova la chiamata.
Codice di stato HTTP: 500
- UnsupportedDocumentException
-
Il formato del documento di input non è supportato. I documenti per le operazioni possono essere in formato PNG, JPEG, PDF o TIFF.
Codice di stato HTTP: 400
Vedi anche
Per ulteriori informazioni sull'utilizzo di questa API in uno degli SDK AWS specifici della lingua, consulta quanto segue: