Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
GetDocumentTextDetection
Obtiene los resultados de una operación asíncrona de Amazon Texact que detecta texto de un documento. Amazon Textract Texact puede detectar líneas de texto y las palabras que componen una línea de texto.
Se inicia la detección de texto asíncrona llamandoStartDocumentTextDetection, que devuelve un identificador de trabajo (JobId
). Cuando finaliza la operación de detección de texto, Amazon Textract Texact publica un estado de finalización en el tema de Amazon Simple Notification Service (Amazon SNS) registrado en la llamada inicial aStartDocumentTextDetection
. Para obtener los resultados de la operación de detección de texto, compruebe primero que el valor de estado publicado en el tema de Amazon SNS esSUCCEEDED
. Si es así, llameGetDocumentTextDetection
y pasa el identificador de trabajo (JobId
) desde la llamada inicial hastaStartDocumentTextDetection
.
GetDocumentTextDetection
devuelve una matriz deBlockobjetos.
Cada página de documento tiene como asociadoBlock
de tipo PAGE. Cada PÁGINABlock
el objeto es el principal de LINEBlock
objetos que representan las líneas del texto detectado en una página. UNA LÍNEABlock
objeto es un padre para cada palabra que forma la línea. Las palabras están representadas porBlock
objetos de tipo WORD.
Utilice el parámetro MaxResults para limitar el número de bloques devueltos. Si hay más resultados de los especificados enMaxResults
, el valor deNextToken
en la respuesta de la operación contiene un token de paginación para obtener el siguiente conjunto de resultados. Para obtener la siguiente página de resultados, llameGetDocumentTextDetection
y rellénelaNextToken
parámetro request con el valor de token que se devuelve de la llamada anterior aGetDocumentTextDetection
.
Para obtener más información, consulteDetección de texto de documentos.
Sintaxis de la solicitud
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
Parámetros de solicitud
La solicitud acepta los siguientes datos en formato JSON.
- JobId
-
Un identificador único para el trabajo de detección de texto. La
JobId
se devuelve desdeStartDocumentTextDetection
. UNAJobId
El valor solo es válido durante 7 días.Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.
Patrón:
^[a-zA-Z0-9-_]+$
Obligatorio: Sí
- MaxResults
-
El número máximo de resultados que devolver por llamada paginada. El valor más grande que puede especificar es 1,000. Si especifica un valor superior a 1 000, se devolverá un máximo de 1 000 resultados. El valor predeterminado es 1,000.
Type: Entero
Rango válido: Valor mínimo de 1.
Obligatorio: No
- NextToken
-
Si la respuesta anterior estaba incompleta (porque hay más bloques que recuperar), Amazon Texact devuelve un token de paginación en la respuesta. Puede utilizar este token de paginación para recuperar el siguiente conjunto de bloques.
Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.
Patrón:
.*\S.*
Obligatorio: No
Sintaxis de la respuesta
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
Elementos de respuesta
Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.
El servicio devuelve los datos siguientes en formato JSON.
- Blocks
-
Los resultados de la operación de detección de texto.
Type: Matrices deBlockobjects
- DetectDocumentTextModelVersion
-
Type: Cadena
- DocumentMetadata
-
Información sobre un documento que Amazon Textract procesó.
DocumentMetadata
se devuelve en cada página de respuestas paginadas de una operación de vídeo de Amazon Textract Texact.Tipo: objeto DocumentMetadata
- JobStatus
-
El estado actual del trabajo de detección de texto.
Type: Cadena
Valores válidos:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
Si la respuesta se trunca, Amazon Textract devuelve este token. Puede utilizar este token en la solicitud subsiguiente para recuperar el siguiente conjunto de resultados de detección de texto.
Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.
Patrón:
.*\S.*
- StatusMessage
-
Devuelve si el trabajo de detección no se ha podido completar. Contiene explicación de qué error se ha producido.
Type: Cadena
- Warnings
-
Lista de advertencias que se produjeron durante la operación de detección de texto del documento.
Type: Matrices deWarningobjects
Errores
- AccessDeniedException
-
No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.
Código de estado HTTP: 400
- InternalServerError
-
Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- InvalidJobIdException
-
Se ha pasado un identificador de trabajo no válido aGetDocumentAnalysiso paraGetDocumentAnalysis.
Código de estado HTTP: 400
- InvalidKMSKeyException
-
Indica que no tiene permisos de descifrado con la clave KMS introducida o que la clave KMS se ha introducido de forma incorrecta.
Código de estado HTTP: 400
- InvalidParameterException
-
Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, un
InvalidParameterException
se produce cuando ninguno de losS3Object
oBytes
los valores se proporcionan en elDocument
parámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.Código de estado HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract Texact no puede obtener acceso al objeto de S3 especificado en la solicitud. Para obtener más información,Configuración del acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3
Código de estado HTTP: 400
- ProvisionedThroughputExceededException
-
El número de solicitudes ha superado su límite de rendimiento. Si quieres aumentar este límite, ponte en contacto con Amazon Textract.
Código de estado HTTP: 400
- ThrottlingException
-
Amazon Textract Texact no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
Véase también
Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: