Documentos de texto sin formato Documentos de Semi-structured Archivos de imagen y archivos PDF escaneados Tamaño del JSON de salida de Amazon Textract

Entradas para análisis personalizados asíncronos

Puede introducir varios documentos en un trabajo de análisis asíncrono personalizado. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar. El tamaño máximo de archivo varía según el tipo de documento de entrada.

Temas

Documentos de texto sin formato
Documentos de Semi-structured
Archivos de imagen y archivos PDF escaneados
Tamaño del JSON de salida de Amazon Textract

Documentos de texto sin formato

Proporcione todos los documentos de entrada de texto plano como UTF-8-formatted texto. En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.

nota

Estos límites se aplican cuando todos los archivos de entrada son texto sin formato.

Description (Descripción)	Quota/Guideline
Tamaño máximo de archivo para un documento por formato de archivo (clasificación personalizada)	1 byte: 10 MB
Tamaño del documento (reconocimiento de entidades personalizado)	1 byte: 1 MB
Número máximo de archivos, un documento por archivo	1 000 000
Número máximo de líneas, un documento por línea (para todos los archivos de la solicitud)	1 000 000
Tamaño del corpus del documento (todos los documentos con texto sin formato combinados)	1 byte: 5 GB

Documentos de Semi-structured

Semi-structured Los documentos incluyen documentos PDF nativos y documentos de Word.

En la tabla siguiente se enumeran los tamaños máximos de archivo y otras directrices.

Description (Descripción)	Quota/Guideline
Tamaño del documento (PDF)	1 byte: 50 MB
Tamaño del documento (DOCX)	1 byte: 5 MB
Número máximo de perfiles	500
Número máximo de páginas para un archivo PDF o DOCX	100
Tamaño del corpus del documento tras la extracción del texto (texto sin formato, todos los archivos combinados)	1 byte: 5 GB

De forma predeterminada, el análisis personalizado utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte Configuración de las opciones de extracción de texto.

Archivos de imagen y archivos PDF escaneados

El análisis personalizado admite imágenes JPEG, PNG y TIFF.

La siguiente tabla muestra los tamaños máximos de archivo para las imágenes. Los archivos PDF escaneados están sujetos a los mismos tamaños máximos que los archivos PDF nativos.

Description (Descripción)	Quota/Guideline
Tamaño de la imagen (JPG o PNG)	1 byte: 10 MB
Tamaño de la imagen (TIFF)	1 byte: 10 MB Máximo una página.

Para obtener información adicional sobre las imágenes, consulte Prácticas recomendadas para imágenes.

De forma predeterminada, Amazon Comprehend utiliza la operación de la API DetectDocumentText de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API AnalyzeDocument en su lugar. Consulte Configuración de las opciones de extracción de texto.

Tamaño del JSON de salida de Amazon Textract

Para el reconocimiento de entidades personalizado, pero no para una clasificación personalizada, puede proporcionar el archivo de salida de la operación de la API AnalyzeDocument de Amazon Textract como entrada para los trabajos de análisis.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Entradas para análisis en tiempo real

Configuración de las opciones de extracción de texto