Entradas para análisis personalizados asíncronos - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Entradas para análisis personalizados asíncronos

Puede introducir varios documentos en un trabajo de análisis asíncrono personalizado. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar. El tamaño máximo de archivo varía según el tipo de documento de entrada.

Documentos de texto sin formato

Proporcione todos los documentos de entrada sin formato como texto con formato UTF-8. En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.

nota

Estos límites se aplican cuando todos los archivos de entrada son texto sin formato.

Descripción Cuota/Directriz
Tamaño máximo de archivo para un documento por formato de archivo (clasificación personalizada) 1 byte: 10 MB
Tamaño del documento (reconocimiento de entidades personalizado) 1 byte: 1 MB
Número máximo de archivos, un documento por archivo 1 000 000
Número máximo de líneas, un documento por línea (para todos los archivos de la solicitud) 1 000 000
Tamaño del corpus del documento (todos los documentos con texto sin formato combinados) 1 byte: 5 GB

Documentos semiestructurados

Los documentos semiestructurados incluyen documentos PDF nativos y documentos de Word.

En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.

Descripción Cuota/Directriz
Tamaño del documento (PDF) 1 byte: 50 MB.
Tamaño del documento (DOCX) 1 byte: 5 MB
Número máximo de perfiles 500
Número máximo de páginas para un archivo PDF o DOCX 100
Tamaño del corpus del documento tras la extracción del texto (texto sin formato, todos los archivos combinados) 1 byte: 5 GB

De forma predeterminada, el análisis personalizado utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte Configuración de las opciones de extracción de texto.

Archivos de imagen y archivos PDF escaneados

El análisis personalizado admite imágenes JPEG, PNG y TIFF.

La siguiente tabla muestra los tamaños máximos de archivo para las imágenes. Los archivos PDF escaneados están sujetos a los mismos tamaños máximos que los archivos PDF nativos.

Descripción Cuota/Directriz
Tamaño de la imagen (JPG o PNG) 1 byte: 10 MB.
Tamaño de la imagen (TIFF) 1 byte: 10 MB. Máximo una página.

Para obtener información adicional sobre las imágenes, consulte Prácticas recomendadas para imágenes.

De forma predeterminada, Amazon Comprehend utiliza la operación de la API DetectDocumentText de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API AnalyzeDocument en su lugar. Consulte Configuración de las opciones de extracción de texto.

Tamaño del JSON de salida de Amazon Textract

Para el reconocimiento de entidades personalizado, pero no para una clasificación personalizada, puede proporcionar el archivo de salida de la operación de la API AnalyzeDocument de Amazon Textract como entrada para los trabajos de análisis.