Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AnalyzeDocument
Analiza un documento de entrada en busca de relaciones entre elementos detectados.
Los tipos de información devuelta son los siguientes:
-
Datos de formulario (pares de clave-valor). La información relacionada se devuelve en dosBlockobjetos, cada uno de tipo
KEY_VALUE_SET
: una LLAVEBlock
objeto y un VALORBlock
objeto. Por ejemplo,Name: Ana Silva Carolinacontiene una clave y un valor. Name:es la clave. Ana Silva Carolinaes el valor. -
Datos de celdas de tabla y tabla. UNA TABLA
Block
contiene información sobre una tabla detectada. UNA CELDABlock
se devuelve para cada celda de una tabla. -
Líneas y palabras de texto. UNA LÍNEA
Block
contiene uno o varios WORDBlock
objetos. Se devuelven todas las líneas y palabras detectadas en el documento (incluido el texto que no tiene relación con el valor deFeatureTypes
).
Los elementos de selección, tales como casillas de verificación y botones de opción (botones de opción) se pueden detectar en los datos del formulario y en las tablas. UN ELEMENTO SELECTION_ELEMENTBlock
contiene información sobre un elemento de selección, incluido el estado de la selección.
Puede elegir qué tipo de análisis desea realizar especificando laFeatureTypes
lista.
La salida se devuelve en una lista deBlock
objetos.
AnalyzeDocument
es una operación síncrona. Para analizar documentos de forma asíncrona, utiliceStartDocumentAnalysis.
Para obtener más información, consulteAnálisis de texto de documentos.
Sintaxis de la solicitud
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
Parámetros de solicitud
La solicitud acepta los siguientes datos en formato JSON.
- Document
-
El documento de entrada como bytes codificados en base64 o un objeto Amazon S3. Si utiliza la CLI de AWS para llamar a las operaciones de Amazon Textract Texact, no puede pasar bytes de imagen. El documento debe ser una imagen en formato JPEG, PNG, PDF o TIFF.
Si utiliza un SDK de AWS para llamar a Amazon Textract, es posible que no tenga que codificar en base 64 bytes de imagen que se pasan mediante el
Bytes
.Tipo: objeto Document
Obligatorio: Sí
- FeatureTypes
-
Lista de los tipos de análisis que se van a realizar. Agregue TABLES a la lista para devolver información sobre las tablas detectadas en el documento de entrada. Añada FORMULARIOS para devolver los datos del formulario detectados. Para realizar ambos tipos de análisis, agregue TABLES y FORMS a
FeatureTypes
. Todas las líneas y palabras detectadas en el documento se incluyen en la respuesta (incluido el texto que no está relacionado con el valor deFeatureTypes
).Type: Matriz de cadenas
Valores válidos:
TABLES | FORMS
Obligatorio: Sí
- HumanLoopConfig
-
Establece la configuración del flujo de trabajo humano en bucle para analizar documentos.
Tipo: objeto HumanLoopConfig
Obligatorio: No
Sintaxis de la respuesta
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Elementos de respuesta
Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.
El servicio devuelve los datos siguientes en formato JSON.
- AnalyzeDocumentModelVersion
-
La versión del modelo que se utiliza para analizar el documento.
Type: Cadena
- Blocks
-
Los elementos detectados y analizados por
AnalyzeDocument
.Type: Matriz deBlockobjects
- DocumentMetadata
-
Metadatos sobre el documento analizado. Un ejemplo es el número de páginas.
Tipo: objeto DocumentMetadata
- HumanLoopActivationOutput
-
Muestra los resultados de la evaluación humana en bucle.
Tipo: objeto HumanLoopActivationOutput
Errores
- AccessDeniedException
-
No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.
Código de estado HTTP: 400
- BadDocumentException
-
Amazon Textract Texact no puede leer el documento. Para obtener más información sobre los límites de documentos en Amazon Textract, consulteLímites máximos de Amazon Textract.
Código de estado HTTP: 400
- DocumentTooLargeException
-
El documento no se puede procesar porque es demasiado grande. Tamaño máximo de documento para operaciones síncronas de 10 MB. El tamaño máximo de documento para las operaciones asíncronas es de 500 MB para los archivos PDF.
Código de estado HTTP: 400
- HumanLoopQuotaExceededException
-
Indica que ha superado la cantidad máxima de personas activas en los flujos de trabajo de bucle disponibles
Código de estado HTTP: 400
- InternalServerError
-
Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- InvalidParameterException
-
Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, un
InvalidParameterException
se produce cuando ninguno de losS3Object
oBytes
los valores se proporcionan en elDocument
parámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.Código de estado HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract Texact no puede obtener acceso al objeto de S3 que se especifica en la solicitud. Para obtener más información,Configuración del acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3
Código de estado HTTP: 400
- ProvisionedThroughputExceededException
-
El número de solicitudes ha superado su límite de rendimiento. Si necesita aumentar este límite, póngase en contacto con Amazon Textract.
Código de estado HTTP: 400
- ThrottlingException
-
Amazon Textract no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- UnsupportedDocumentException
-
El formato del documento de entrada no se admite. Los documentos para operaciones pueden estar en formato PNG, JPEG, PDF o TIFF.
Código de estado HTTP: 400
Véase también
Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: