Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Entradas para análisis personalizados asíncronos
Puede introducir varios documentos en un trabajo de análisis asíncrono personalizado. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar. El tamaño máximo de archivo varía según el tipo de documento de entrada.
Temas
Documentos de texto sin formato
Proporcione todos los documentos de entrada sin formato como texto con formato UTF-8. En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.
nota
Estos límites se aplican cuando todos los archivos de entrada son texto sin formato.
Descripción | Cuota/Directriz |
---|---|
Tamaño máximo de archivo para un documento por formato de archivo (clasificación personalizada) | 1 byte: 10 MB |
Tamaño del documento (reconocimiento de entidades personalizado) | 1 byte: 1 MB |
Número máximo de archivos, un documento por archivo | 1 000 000 |
Número máximo de líneas, un documento por línea (para todos los archivos de la solicitud) | 1 000 000 |
Tamaño del corpus del documento (todos los documentos con texto sin formato combinados) | 1 byte: 5 GB |
Documentos semiestructurados
Los documentos semiestructurados incluyen documentos PDF nativos y documentos de Word.
En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.
Descripción | Cuota/Directriz |
---|---|
Tamaño del documento (PDF) | 1 byte: 50 MB. |
Tamaño del documento (DOCX) | 1 byte: 5 MB |
Número máximo de perfiles | 500 |
Número máximo de páginas para un archivo PDF o DOCX | 100 |
Tamaño del corpus del documento tras la extracción del texto (texto sin formato, todos los archivos combinados) | 1 byte: 5 GB |
De forma predeterminada, el análisis personalizado utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte Configuración de las opciones de extracción de texto.
Archivos de imagen y archivos PDF escaneados
El análisis personalizado admite imágenes JPEG, PNG y TIFF.
La siguiente tabla muestra los tamaños máximos de archivo para las imágenes. Los archivos PDF escaneados están sujetos a los mismos tamaños máximos que los archivos PDF nativos.
Descripción | Cuota/Directriz |
---|---|
Tamaño de la imagen (JPG o PNG) | 1 byte: 10 MB. |
Tamaño de la imagen (TIFF) | 1 byte: 10 MB. Máximo una página. |
Para obtener información adicional sobre las imágenes, consulte Prácticas recomendadas para imágenes.
De forma predeterminada, Amazon Comprehend utiliza la operación de la API DetectDocumentText
de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API AnalyzeDocument
en su lugar. Consulte Configuración de las opciones de extracción de texto.
Tamaño del JSON de salida de Amazon Textract
Para el reconocimiento de entidades personalizado, pero no para una clasificación personalizada, puede proporcionar el archivo de salida de la operación de la API AnalyzeDocument
de Amazon Textract como entrada para los trabajos de análisis.