Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
StartDocumentAnalysis
Inicia el análisis asíncrono de un documento de entrada para detectar las relaciones entre elementos detectados como pares clave-valor, tablas y elementos de selección.
StartDocumentAnalysis
puede analizar el texto de documentos en formato JPEG, PNG, TIFF y PDF. Los documentos se almacenan en un bucket de Amazon S3. UsarDocumentLocationpara especificar el nombre del bucket de y el nombre de archivo del documento.
StartDocumentAnalysis
devuelve un identificador de trabajo (JobId
) que utiliza para obtener los resultados de la operación. Cuando el análisis de texto se finalice, Amazon Textract Texact publica un estado de finalización en el tema de Amazon Simple Notification Service (Amazon SNS) que especifique enNotificationChannel
. Para obtener los resultados de la operación de análisis de texto, compruebe primero que el valor de estado publicado en el tema de Amazon SNS esSUCCEEDED
. Si es así, llameGetDocumentAnalysisy pasa el identificador de trabajo (JobId
) desde la llamada inicial hastaStartDocumentAnalysis
.
Para obtener más información, consulteAnálisis de texto en documentos.
Sintaxis de la solicitud
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
Parámetros de solicitud
La solicitud acepta los siguientes datos en formato JSON.
- ClientRequestToken
-
El token idempotente que utiliza para identificar la solicitud de inicio. Si utilizas el mismo token con varios
StartDocumentAnalysis
solicitudes, lo mismoJobId
se devuelve. UsarClientRequestToken
para evitar que el mismo trabajo se inicie accidentalmente más de una vez. Para obtener más información, consulteLlamar a operaciones asíncronas de Amazon Textract.Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.
Patrón:
^[a-zA-Z0-9-_]+$
Obligatorio: No
- DocumentLocation
-
Ubicación del documento que se va a procesar.
Tipo: objeto DocumentLocation
Obligatorio: Sí
- FeatureTypes
-
Lista de los tipos de análisis que se van a realizar. Agregue TABLES a la lista para devolver información sobre las tablas detectadas en el documento de entrada. Añada FORMULARIOS para devolver los datos del formulario detectados. Para realizar ambos tipos de análisis, agregue TABLES y FORMS a
FeatureTypes
. Todas las líneas y palabras detectadas en el documento se incluyen en la respuesta (incluido el texto que no está relacionado con el valor deFeatureTypes
).Type: Matriz de cadenas
Valores válidos:
TABLES | FORMS
Obligatorio: Sí
- JobTag
-
Identificador que especifique incluido en la notificación de finalización publicada en el tema de Amazon SNS. Por ejemplo, puede utilizar
JobTag
para identificar el tipo de documento al que corresponde la notificación de finalización (como un formulario fiscal o un recibo).Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.
Patrón:
[a-zA-Z0-9_.\-:]+
Obligatorio: No
- KMSKeyId
-
La clave KMS utilizada para cifrar los resultados de inferencia. Puede estar en formato ID de clave o alias de clave. Cuando se proporciona una clave KMS, la clave KMS se utilizará para el cifrado del lado del servidor de los objetos del depósito de clientes. Cuando este parámetro no está habilitado, el resultado se cifrará en el lado del servidor mediante SSE-S3.
Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es de 2048 caracteres.
Patrón:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
Obligatorio: No
- NotificationChannel
-
Arn del tema de Amazon SNS en el que desea que Amazon Textract publique el estado de finalización de la operación.
Tipo: objeto NotificationChannel
Obligatorio: No
- OutputConfig
-
Establece si la salida irá a un depósito definido por el cliente. De forma predeterminada, Amazon Textract Texact guardará los resultados internamente para acceder a ellos mediante la operación GetDocumentAnalysis.
Tipo: objeto OutputConfig
Obligatorio: No
Sintaxis de la respuesta
{
"JobId": "string"
}
Elementos de respuesta
Si la acción se realiza correctamente, el servicio devuelve una respuesta HTTP 200.
El servicio devuelve los datos siguientes en formato JSON.
- JobId
-
El identificador del trabajo de detección de texto en documentos. Usar
JobId
para identificar el trabajo en una llamada posterior aGetDocumentAnalysis
. UNAJobId
El valor es válido solo durante 7 días.Type: Cadena
Restricciones de longitud: Longitud mínima de 1. La longitud máxima es 64.
Patrón:
^[a-zA-Z0-9-_]+$
Errores
- AccessDeniedException
-
No tiene autorización para realizar la acción. Utilice el nombre de recurso de Amazon (ARN) de un usuario autorizado o un rol de IAM para realizar la operación.
Código de estado HTTP: 400
- BadDocumentException
-
Amazon Textract Texact no puede leer el documento. Para obtener más información sobre los límites de documentos en Amazon Textract, consulteLímites máximos de Amazon Textract.
Código de estado HTTP: 400
- DocumentTooLargeException
-
El documento no se puede procesar porque es demasiado grande. Tamaño máximo de documento para operaciones síncronas de 10 MB. El tamaño máximo de documento para operaciones asíncronas es de 500 MB para los archivos PDF.
Código de estado HTTP: 400
- IdempotentParameterMismatchException
-
UNA
ClientRequestToken
Se ha reutilizado con una operación, pero al menos uno de los demás parámetros de entrada es distinto de la llamada anterior a la operación.Código de estado HTTP: 400
- InternalServerError
-
Amazon Textract ha tenido un problema de servicio. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- InvalidKMSKeyException
-
Indica que no tiene permisos de descifrado con la clave KMS introducida o que la clave KMS se ha introducido de forma incorrecta.
Código de estado HTTP: 400
- InvalidParameterException
-
Un parámetro de entrada infringió una restricción. Por ejemplo, en operaciones sincrónicas, un
InvalidParameterException
se produce cuando ninguno de losS3Object
oBytes
los valores se proporcionan en elDocument
parámetro de solicitud. Valide el parámetro antes de llamar a la operación de la API de nuevo.Código de estado HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract no puede obtener acceso al objeto de S3 que se especifica en la solicituda. para obtener más información,Configuración del acceso a Amazon S3Para obtener información sobre la resolución de problemas, consulteSolución de problemas de Amazon S3
Código de estado HTTP: 400
- LimitExceededException
-
Se ha superado un límite de servicio Amazon Textract. Por ejemplo, si inicia demasiados trabajos asíncronos simultáneamente, llama para iniciar operaciones (
StartDocumentTextDetection
, por ejemplo) produce una excepción LimitExceededException (código de estado HTTP: 400) hasta que el número de trabajos ejecutados simultáneamente se encuentre por debajo del límite de servicio Amazon Textract Texacte.Código de estado HTTP: 400
- ProvisionedThroughputExceededException
-
El número de solicitudes ha superado su límite de rendimiento. Si necesita aumentar este límite, póngase en contacto con Amazon Textract.
Código de estado HTTP: 400
- ThrottlingException
-
Amazon Textract Texact no puede procesar temporalmente la solicitud. Pruebe la llamada de nuevo.
Código de estado HTTP: 500
- UnsupportedDocumentException
-
No se admite el formato del documento de entrada. Los documentos para operaciones pueden estar en formato PNG, JPEG, PDF o TIFF.
Código de estado HTTP: 400
Véase también
Para obtener más información sobre el uso de esta API en un SDK de AWS de un lenguaje específico, consulte: