Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
GetDocumentAnalysis
Obtiene los resultados de una operación asíncrona de Amazon Textract Texact que analiza el texto de un documento.
Para iniciar un análisis de texto asíncrono, llama aStartDocumentAnalysis, que devuelve un identificador de trabajo (JobId
). Cuando finaliza la operación de análisis de texto, Amazon Textract Texact publica un estado de finalización en el tema de Amazon Simple Notification Service (Amazon SNS) registrado en la llamada inicial aStartDocumentAnalysis
. Para obtener los resultados de la operación de detección de texto, compruebe primero que el valor de estado publicado en el tema de Amazon SNS esSUCCEEDED
. Si es así, llameGetDocumentAnalysis
y pasa el identificador de trabajo (JobId
) desde la llamada inicial hastaStartDocumentAnalysis
.
GetDocumentAnalysis
devuelve una matriz deBlockobjetos. Se devuelven los siguientes tipos de información:
-
Datos del formulario (pares de clave-valor). La información relacionada se devuelve en dos.Blockobjetos, cada uno de tipo
KEY_VALUE_SET
: una LLAVEBlock
objeto y un VALORBlock
objeto. Por ejemplo,Name: Ana Silva Carolinacontiene una clave y un valor. Name:es la clave. Ana Silva Carolinaes el valor. -
Datos de celdas de tabla y tabla. UNA MESA
Block
contiene información sobre una tabla detectada. UNA CELDABlock
se devuelve para cada celda de una tabla. -
Líneas y palabras de texto. UNA LÍNEA
Block
un objeto contiene uno o varios WORDBlock
objetos. Se devuelven todas las líneas y palabras detectadas en el documento (incluido el texto que no tiene relación con el valor delStartDocumentAnalysis
FeatureTypes
parámetro de entrada).
Los elementos de selección, tales como casillas de verificación y botones de opción (botones de opción) se pueden detectar en los datos del formulario y en las tablas. A SELECTION_ELEMENTBlock
contiene información sobre un elemento de selección, incluido el estado de selección.
UsarMaxResults
para limitar el número de bloques devueltos. Si hay más resultados de los especificados enMaxResults
, el valor deNextToken
en la respuesta de la operación contiene un token de paginación para obtener el siguiente conjunto de resultados. Para obtener la siguiente página de resultados, llame aGetDocumentAnalysis
, y rellénelaNextToken
parámetro request con el valor de token que se devuelve de la llamada anterior aGetDocumentAnalysis
.
Para obtener más información, consulteAnálisis de texto de documentos.
Sintaxis de la solicitud
{
"JobId": "string
",
"MaxResults": number
,
"NextToken": "string
"
}
Parámetros de solicitud
La solicitud acepta los siguientes datos en formato JSON.
- JobId
-
Un identificador único del trabajo de detección de texto. La
JobId
se devuelve desdeStartDocumentAnalysis
. UNAJobId
El valor solo es válido durante 7 días.Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.
Patrón:
^[a-zA-Z0-9-_]+$
Obligatorio: Sí
- MaxResults
-
El número máximo de resultados que devolver por llamada paginada. El valor mayor que puede especificar es 1,000. Si especifica un valor superior a 1 000, se devolverá un máximo de 1 000 resultados. El valor predeterminado es 1,000.
Type: Entero
Rango válido: Valor mínimo de 1.
Obligatorio: No
- NextToken
-
Si la respuesta anterior estaba incompleta (porque hay más bloques que recuperar), Amazon Texact devuelve un token de paginación en la respuesta. Puede utilizar este token de paginación para recuperar el siguiente conjunto de bloques.
Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.
Patrón:
.*\S.*
Obligatorio: No
Sintaxis de la respuesta
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"JobStatus": "string",
"NextToken": "string",
"StatusMessage": "string",
"Warnings": [
{
"ErrorCode": "string",
"Pages": [ number ]
}
]
}
Elementos de respuesta
Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.
El servicio devuelve los datos siguientes en formato JSON.
- AnalyzeDocumentModelVersion
-
Type: Cadena
- Blocks
-
Los resultados de la operación de análisis de texto.
Type: Matriz deBlockobjects
- DocumentMetadata
-
Información sobre un documento que Amazon Textract procesó.
DocumentMetadata
se devuelve en cada página de respuestas paginadas de una operación de vídeo de Amazon Textract Texact.Tipo: objeto DocumentMetadata
- JobStatus
-
El estado actual del trabajo de detección de texto.
Type: Cadena
Valores válidos:
IN_PROGRESS | SUCCEEDED | FAILED | PARTIAL_SUCCESS
- NextToken
-
Si la respuesta se trunca, Amazon Textract devuelve este token. Puede utilizar este token en la solicitud subsiguiente para recuperar el siguiente conjunto de resultados de detección de texto.
Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 255 caracteres.
Patrón:
.*\S.*
- StatusMessage
-
Devuelve si el trabajo de detección no se ha podido completar. Contiene explicación de qué error se ha producido.
Type: Cadena
- Warnings
-
Lista de advertencias que se produjeron durante la operación de análisis de documentos.
Type: Matriz deWarningobjects
Errores
- AccessDeniedException
-
No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.
Código de estado HTTP: 400
- InternalServerError
-
Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- InvalidJobIdException
-
Se ha pasado un identificador de trabajo no válido aGetDocumentAnalysiso paraGetDocumentAnalysis.
Código de estado HTTP: 400
- InvalidKMSKeyException
-
Indica que no tiene permisos de descifrado con la clave KMS introducida o que la clave KMS se ha introducido de forma incorrecta.
Código de estado HTTP: 400
- InvalidParameterException
-
Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, un
InvalidParameterException
se produce cuando ninguno de losS3Object
oBytes
los valores se proporcionan en elDocument
parámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.Código de estado HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract Texact no puede obtener acceso al objeto de S3 especificado en la solicituda. para obtener más información,Configurar el acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3
Código de estado HTTP: 400
- ProvisionedThroughputExceededException
-
El número de solicitudes ha superado su límite de rendimiento. Si quieres aumentar este límite, ponte en contacto con Amazon Textract.
Código de estado HTTP: 400
- ThrottlingException
-
Amazon Textract Texact no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
Véase también
Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: