Documentos de texto sin formato Documentos de Semi-structured Archivos de imagen y archivos PDF escaneados Salida de Amazon Textract Tamaños máximos de documentos para el análisis en tiempo real Errores en documentos semiestructurados

Entradas para análisis personalizados en tiempo real

Real-time El análisis mediante modelos personalizados toma un único documento como entrada. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar.

Temas

Documentos de texto sin formato
Documentos de Semi-structured
Archivos de imagen y archivos PDF escaneados
Salida de Amazon Textract
Tamaños máximos de documentos para el análisis en tiempo real
Errores en documentos semiestructurados

Documentos de texto sin formato

Proporcione el documento de entrada como UTF-8-formatted texto.

Documentos de Semi-structured

Semi-structured Los documentos incluyen documentos PDF nativos y documentos de Word.

De forma predeterminada, el análisis personalizado en tiempo real utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte Configuración de las opciones de extracción de texto.

Archivos de imagen y archivos PDF escaneados

Los tipos de imagen admitidos incluyen JPEG, PNG y TIFF.

De forma predeterminada, el reconocimiento de entidades personalizado utiliza la operación de la API DetectDocumentText de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API AnalyzeDocument en su lugar. Consulte Configuración de las opciones de extracción de texto.

Salida de Amazon Textract

Puede proporcionar el resultado de JSON de la API DetectDocumentText de Amazon Textract o la API AnalyzeDocument como entrada para las operaciones de la API en tiempo real para la clasificación personalizada y el reconocimiento de entidades personalizado. Amazon Comprehend admite este tipo de entrada para las operaciones de la API en tiempo real, pero no para la consola.

Tamaños máximos de documentos para el análisis en tiempo real

Para todos los tipos de documentos de entrada, el tamaño máximo del archivo de entrada es una página, con un máximo de 10 000 caracteres.

En la siguiente tabla se muestran los tamaños de archivo máximos para documentos de entrada.

Tipo de archivo	Tamaño máximo (API)	Tamaño máximo (consola)
UTF-8 documentos de texto	10 KB	10 KB
Documentos PDF	10 MB	5 MB
Documentos de Word	10 MB	1 MB
Archivos de imagen	10 MB	5 MB
Archivos de salida de Textract	1 MB	n/a

Errores en documentos semiestructurados

La operación ClassifyDocumento la DetectEntitiesAPI pueden detectar errores a nivel de documento o de página al extraer texto de un documento semiestructurado o de un archivo de imagen.

Page-level errores

Si la operación ClassifyDocumento la DetectEntitiesAPI encuentran errores al procesar una página del documento de entrada, la respuesta de la API incluye una entrada en la lista de errores para cada error.

El ErrorCode de la entrada de la lista de errores contiene uno de los siguientes valores:

TEXTRACT_BAD_PAGE: Amazon Textract no puede leer la página. Para obtener más información sobre los límites de las páginas en Amazon Textract, consulte Cuotas de páginas en Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED: el número de solicitudes superó su límite de rendimiento. Para obtener más información sobre las cuotas de rendimiento en Amazon Textract, consulte Cuotas predeterminadas en Amazon Textract.
PAGE_CHARACTERS_EXCEEDED: hay demasiados caracteres de texto en la página (máximo de 10 000 caracteres).
PAGE_SIZE_EXCEEED: el tamaño máximo de la página es de 10 MB.
INTERNAL_SERVER_ERROR — La solicitud detectó un problema de servicio. Intente volver a realizar la solicitud de la API.

Document-level errores

Si la operación ClassifyDocumento la DetectEntitiesAPI detectan un error a nivel de documento en el documento de entrada, la API devuelve una respuesta de InvalidRequestException error.

En la respuesta del error, el campo Reason contiene el valor INVALID_DOCUMENT.

El campo Detail contiene uno de los siguientes valores:

DOCUMENT_SIZE_EXCEEDED: el tamaño del documento es demasiado grande. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.
UNSUPPORTED_DOC_TYPE: no se admite el tipo de documento. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.
PAGE_LIMIT_EXCEEDED: hay demasiadas páginas en el documento. Compruebe el número de páginas del archivo y vuelva a enviar la solicitud.
TEXTRACT_ACCESS_DENIED_EXCEPTION: acceso denegado a Amazon Textract. Comprueba que tu cuenta tiene permiso para usar las operaciones de Amazon Textract DetectDocumentTexty de la AnalyzeDocumentAPI y vuelve a enviar la solicitud.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Procesamiento de documentos

Entradas para análisis asíncronos