GetDocumentTextDetection - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

GetDocumentTextDetection

Obtiene los resultados de una operación asíncrona de Amazon Texact que detecta texto de un documento. Amazon Textract Texact puede detectar líneas de texto y las palabras que componen una línea de texto.

Se inicia la detección de texto asíncrona llamandoStartDocumentTextDetection, que devuelve un identificador de trabajo (JobId). Cuando finaliza la operación de detección de texto, Amazon Textract Texact publica un estado de finalización en el tema de Amazon Simple Notification Service (Amazon SNS) registrado en la llamada inicial aStartDocumentTextDetection. Para obtener los resultados de la operación de detección de texto, compruebe primero que el valor de estado publicado en el tema de Amazon SNS esSUCCEEDED. Si es así, llameGetDocumentTextDetectiony pasa el identificador de trabajo (JobId) desde la llamada inicial hastaStartDocumentTextDetection.

GetDocumentTextDetectiondevuelve una matriz deBlockobjetos.

Cada página de documento tiene como asociadoBlockde tipo PAGE. Cada PÁGINABlockel objeto es el principal de LINEBlockobjetos que representan las líneas del texto detectado en una página. UNA LÍNEABlockobjeto es un padre para cada palabra que forma la línea. Las palabras están representadas porBlockobjetos de tipo WORD.

Utilice el parámetro MaxResults para limitar el número de bloques devueltos. Si hay más resultados de los especificados enMaxResults, el valor deNextTokenen la respuesta de la operación contiene un token de paginación para obtener el siguiente conjunto de resultados. Para obtener la siguiente página de resultados, llameGetDocumentTextDetectiony rellénelaNextTokenparámetro request con el valor de token que se devuelve de la llamada anterior aGetDocumentTextDetection.

Para obtener más información, consulteDetección de texto de documentos.

Sintaxis de la solicitud

{ "JobId": "string", "MaxResults": number, "NextToken": "string" }

Parámetros de solicitud

La solicitud acepta los siguientes datos en formato JSON.

JobId

Un identificador único para el trabajo de detección de texto. LaJobIdse devuelve desdeStartDocumentTextDetection. UNAJobIdEl valor solo es válido durante 7 días.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.

Patrón: ^[a-zA-Z0-9-_]+$

Obligatorio: Sí

MaxResults

El número máximo de resultados que devolver por llamada paginada. El valor más grande que puede especificar es 1,000. Si especifica un valor superior a 1 000, se devolverá un máximo de 1 000 resultados. El valor predeterminado es 1,000.

Type: Entero

Rango válido: Valor mínimo de 1.

Obligatorio: No

NextToken

Si la respuesta anterior estaba incompleta (porque hay más bloques que recuperar), Amazon Texact devuelve un token de paginación en la respuesta. Puede utilizar este token de paginación para recuperar el siguiente conjunto de bloques.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.

Patrón: .*\S.*

Obligatorio: No

Sintaxis de la respuesta

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number }, "JobStatus": "string", "NextToken": "string", "StatusMessage": "string", "Warnings": [ { "ErrorCode": "string", "Pages": [ number ] } ] }

Elementos de respuesta

Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.

El servicio devuelve los datos siguientes en formato JSON.

Blocks

Los resultados de la operación de detección de texto.

Type: Matrices deBlockobjects

DetectDocumentTextModelVersion

Type: Cadena

DocumentMetadata

Información sobre un documento que Amazon Textract procesó.DocumentMetadatase devuelve en cada página de respuestas paginadas de una operación de vídeo de Amazon Textract Texact.

Tipo: objeto DocumentMetadata

JobStatus

El estado actual del trabajo de detección de texto.

Type: Cadena

Valores válidos: IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS

NextToken

Si la respuesta se trunca, Amazon Textract devuelve este token. Puede utilizar este token en la solicitud subsiguiente para recuperar el siguiente conjunto de resultados de detección de texto.

Type: Cadena

Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.

Patrón: .*\S.*

StatusMessage

Devuelve si el trabajo de detección no se ha podido completar. Contiene explicación de qué error se ha producido.

Type: Cadena

Warnings

Lista de advertencias que se produjeron durante la operación de detección de texto del documento.

Type: Matrices deWarningobjects

Errores

AccessDeniedException

No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.

Código de estado HTTP: 400

InternalServerError

Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.

Código de estado HTTP: 500

InvalidJobIdException

Se ha pasado un identificador de trabajo no válido aGetDocumentAnalysiso paraGetDocumentAnalysis.

Código de estado HTTP: 400

InvalidKMSKeyException

Indica que no tiene permisos de descifrado con la clave KMS introducida o que la clave KMS se ha introducido de forma incorrecta.

Código de estado HTTP: 400

InvalidParameterException

Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, unInvalidParameterExceptionse produce cuando ninguno de losS3ObjectoByteslos valores se proporcionan en elDocumentparámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.

Código de estado HTTP: 400

InvalidS3ObjectException

Amazon Textract Texact no puede obtener acceso al objeto de S3 especificado en la solicitud. Para obtener más información,Configuración del acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3

Código de estado HTTP: 400

ProvisionedThroughputExceededException

El número de solicitudes ha superado su límite de rendimiento. Si quieres aumentar este límite, ponte en contacto con Amazon Textract.

Código de estado HTTP: 400

ThrottlingException

Amazon Textract Texact no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.

Código de estado HTTP: 500

Véase también

Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: