

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Entradas para análisis personalizados en tiempo real
<a name="idp-inputs-sync"></a>

El análisis en tiempo real mediante modelos personalizados toma como entrada un único documento. En los temas siguientes, se describen los tipos de documentos de entrada que puede utilizar.

**Topics**
+ [Documentos de texto sin formato](#idp-inputs-sync-text)
+ [Documentos semiestructurados](#idp-inputs-sync-semi)
+ [Archivos de imagen y archivos PDF escaneados](#idp-inputs-sync-ocr)
+ [Salida de Amazon Textract](#idp-inputs-sync-textract)
+ [Tamaños máximos de documentos para el análisis en tiempo real](#idp-inputs-sync-sizes)
+ [Errores en documentos semiestructurados](#idp-inputs-sync-err)

## Documentos de texto sin formato
<a name="idp-inputs-sync-text"></a>

Proporcione el documento de entrada como texto con formato UTF-8. 

## Documentos semiestructurados
<a name="idp-inputs-sync-semi"></a>

Los documentos semiestructurados incluyen documentos PDF nativos y documentos de Word. 

De forma predeterminada, el análisis personalizado en tiempo real utiliza el analizador Amazon Comprehend para extraer el texto de los archivos Word y PDF digitales. En el caso de los archivos PDF, puede anular este valor predeterminado y utilizar Amazon Textract para extraer el texto. Consulte [Configuración de las opciones de extracción de texto](idp-set-textract-options.md).

## Archivos de imagen y archivos PDF escaneados
<a name="idp-inputs-sync-ocr"></a>

Los tipos de imagen admitidos incluyen JPEG, PNG y TIFF.

De forma predeterminada, el reconocimiento de entidades personalizado utiliza la operación de la API `DetectDocumentText` de Amazon Textract para extraer el texto de los archivos de imagen y de los archivos PDF escaneados. Puede anular este valor predeterminado para utilizar la operación de la API `AnalyzeDocument` en su lugar. Consulte [Configuración de las opciones de extracción de texto](idp-set-textract-options.md).

## Salida de Amazon Textract
<a name="idp-inputs-sync-textract"></a>

Puede proporcionar el resultado de JSON de la API `DetectDocumentText` de Amazon Textract o la API `AnalyzeDocument` como entrada para las operaciones de la API en tiempo real para la clasificación personalizada y el reconocimiento de entidades personalizado. Amazon Comprehend admite este tipo de entrada para las operaciones de la API en tiempo real, pero no para la consola.

## Tamaños máximos de documentos para el análisis en tiempo real
<a name="idp-inputs-sync-sizes"></a>

Para todos los tipos de documentos de entrada, el tamaño máximo del archivo de entrada es una página, con un máximo de 10 000 caracteres.

En la siguiente tabla se muestran los tamaños de archivo máximos para documentos de entrada. 


| Tipo de archivo | Tamaño máximo (API) | Tamaño máximo (consola) | 
| --- | --- | --- | 
| Documentos de texto UTF-8 | 10 KB | 10 KB | 
| Documentos PDF | 10 MB | 5 MB | 
| Documentos de Word | 10 MB | 1 MB | 
| Archivos de imagen | 10 MB | 5 MB | 
| Archivos de salida de Textract | 1 MB | n/a | 

## Errores en documentos semiestructurados
<a name="idp-inputs-sync-err"></a>

 La operación [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)o [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API puede detectar errores a nivel de documento o de página al extraer texto de un documento semiestructurado o de un archivo de imagen.

### Errores a nivel de página
<a name="idp-inputs-sync-page-err"></a>

 [Si la operación [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)o la [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API detecta errores al procesar una página del documento de entrada, la respuesta de la API incluye una entrada en la lista de errores para cada error.](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html)

El `ErrorCode` de la entrada de la lista de errores contiene uno de los siguientes valores:
+ TEXTRACT\$1BAD\$1PAGE: Amazon Textract no puede leer la página. Para obtener más información sobre los límites de las páginas en Amazon Textract, consulte [Cuotas de páginas en Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html).
+ TEXTRACT\$1PROVISIONED\$1THROUGHPUT\$1EXCEEDED: el número de solicitudes superó su límite de rendimiento. Para obtener más información sobre las cuotas de rendimiento en Amazon Textract, consulte [Cuotas predeterminadas en Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html).
+ PAGE\$1CHARACTERS\$1EXCEEDED: hay demasiados caracteres de texto en la página (máximo de 10 000 caracteres).
+ PAGE\$1SIZE\$1EXCEEED: el tamaño máximo de la página es de 10 MB.
+ INTERNAL\$1SERVER\$1ERROR — La solicitud detectó un problema de servicio. Intente volver a realizar la solicitud de la API.

### Errores a nivel de documento
<a name="idp-inputs-sync-doc-err"></a>

Si la operación [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)o la [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API detectan un error a nivel de documento en el documento de entrada, la API devuelve una respuesta de `InvalidRequestException` error. 

En la respuesta del error, el campo **Reason** contiene el valor `INVALID_DOCUMENT`. 

El campo **Detail** contiene uno de los siguientes valores:
+ DOCUMENT\$1SIZE\$1EXCEEDED: el tamaño del documento es demasiado grande. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.
+ UNSUPPORTED\$1DOC\$1TYPE: no se admite el tipo de documento. Compruebe el tamaño del archivo y vuelva a enviar la solicitud.
+ PAGE\$1LIMIT\$1EXCEEDED: hay demasiadas páginas en el documento. Compruebe el número de páginas del archivo y vuelva a enviar la solicitud.
+ TEXTRACT\$1ACCESS\$1DENIED\$1EXCEPTION: acceso denegado a Amazon Textract. Comprueba que tu cuenta tiene permiso para usar las operaciones de Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)y de la [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)API y vuelve a enviar la solicitud.