Entradas para análisis personalizados en tiempo real - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Entradas para análisis personalizados en tiempo real

El análisis en tiempo real mediante modelos personalizados toma como entrada un único documento. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar.

Documentos de texto sin formato

Proporcione el documento de entrada como texto con formato UTF-8.

Documentos semiestructurados

Los documentos semiestructurados incluyen documentos PDF nativos y documentos de Word.

De forma predeterminada, el análisis personalizado en tiempo real utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte Configuración de las opciones de extracción de texto.

Archivos de imagen y archivos PDF escaneados

Los tipos de imagen admitidos incluyen JPEG, PNG y TIFF.

De forma predeterminada, el reconocimiento de entidades personalizado utiliza la operación de la API DetectDocumentText de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API AnalyzeDocument en su lugar. Consulte Configuración de las opciones de extracción de texto.

Salida de Amazon Textract

Puede proporcionar el resultado de JSON de la API DetectDocumentText de Amazon Textract o la API AnalyzeDocument como entrada para las operaciones de la API en tiempo real para la clasificación personalizada y el reconocimiento de entidades personalizado. Amazon Comprehend admite este tipo de entrada para las operaciones de la API en tiempo real, pero no para la consola.

Tamaños máximos de documentos para el análisis en tiempo real

Para todos los tipos de documentos de entrada, el tamaño máximo del archivo de entrada es una página, con un máximo de 10 000 caracteres.

En la siguiente tabla se muestran los tamaños de archivo máximos para documentos de entrada.

Tipo de archivo Tamaño máximo (API) Tamaño máximo (consola)
Documentos de texto UTF-8 10 KB 10 KB
Documentos PDF 10 MB 5 MB
Documentos de Word 10 MB 1 MB
Archivos de imagen 10 MB 5 MB
Archivos de salida de Textract 1 MB n/a

Errores en documentos semiestructurados

La operación ClassifyDocumento DetectEntitiesAPI puede detectar errores a nivel de documento o de página al extraer texto de un documento semiestructurado o de un archivo de imagen.

Errores a nivel de página

Si la operación ClassifyDocumento la DetectEntitiesAPI detecta errores al procesar una página del documento de entrada, la respuesta de la API incluye una entrada en la lista de errores para cada error.

El ErrorCode de la entrada de la lista de errores contiene uno de los siguientes valores:

  • TEXTRACT_BAD_PAGE: Amazon Textract no puede leer la página. Para obtener más información sobre los límites de las páginas en Amazon Textract, consulte Cuotas de páginas en Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: el número de solicitudes superó su límite de rendimiento. Para obtener más información sobre las cuotas de rendimiento en Amazon Textract, consulte Cuotas predeterminadas en Amazon Textract.

  • PAGE_CHARACTERS_EXCEEDED: hay demasiados caracteres de texto en la página (máximo de 10 000 caracteres).

  • PAGE_SIZE_EXCEEED: el tamaño máximo de la página es de 10 MB.

  • INTERNAL_SERVER_ERROR — La solicitud detectó un problema de servicio. Intente volver a realizar la solicitud de la API.

Errores a nivel de documento

Si la operación ClassifyDocumento la DetectEntitiesAPI detectan un error a nivel de documento en el documento de entrada, la API devuelve una respuesta de InvalidRequestException error.

En la respuesta del error, el campo Reason contiene el valor INVALID_DOCUMENT.

El campo Detail contiene uno de los siguientes valores:

  • DOCUMENT_SIZE_EXCEEDED: el tamaño del documento es demasiado grande. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.

  • UNSUPPORTED_DOC_TYPE: no se admite el tipo de documento. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.

  • PAGE_LIMIT_EXCEEDED: hay demasiadas páginas en el documento. Compruebe el número de páginas del archivo y vuelva a enviar la solicitud.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION: acceso denegado a Amazon Textract. Comprueba que tu cuenta tiene permiso para usar las operaciones de Amazon Textract DetectDocumentTexty de la AnalyzeDocumentAPI y vuelve a enviar la solicitud.