

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Entradas para análise personalizada em tempo real
<a name="idp-inputs-sync"></a>

A análise em tempo real usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.

**Topics**
+ [Documentos de texto simples](#idp-inputs-sync-text)
+ [Documentos semiestruturados](#idp-inputs-sync-semi)
+ [Arquivos de imagem e arquivos PDF digitalizados](#idp-inputs-sync-ocr)
+ [Saída do Amazon Textract](#idp-inputs-sync-textract)
+ [Tamanhos máximos de documentos para análise em tempo real](#idp-inputs-sync-sizes)
+ [Erros em documentos semiestruturados](#idp-inputs-sync-err)

## Documentos de texto simples
<a name="idp-inputs-sync-text"></a>

Forneça os documentos de entrada como texto no formato UTF-8. 

## Documentos semiestruturados
<a name="idp-inputs-sync-semi"></a>

Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word. 

Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte [Configurar opções de extração de texto](idp-set-textract-options.md).

## Arquivos de imagem e arquivos PDF digitalizados
<a name="idp-inputs-sync-ocr"></a>

Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.

Por padrão, o reconhecimento personalizado de identidades usa a operação de API `DetectDocumentText` do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API `AnalyzeDocument`. Consulte [Configurar opções de extração de texto](idp-set-textract-options.md).

## Saída do Amazon Textract
<a name="idp-inputs-sync-textract"></a>

Você pode fornecer a saída JSON da API `DetectDocumentText` ou da API `AnalyzeDocument` do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.

## Tamanhos máximos de documentos para análise em tempo real
<a name="idp-inputs-sync-sizes"></a>

Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.

A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada. 


| Tipo de arquivo | Tamanho máximo (API) | Tamanho máximo (console) | 
| --- | --- | --- | 
| Documentos de texto em UTF-8 | 10 KB | 10 KB | 
| Documentos em PDF | 10 MB | 5 MB | 
| Documentos do Word | 10 MB | 1 MB | 
| Arquivos de imagem | 10 MB | 5 MB | 
| Arquivos de saída do Textract | 1 MB | n/a | 

## Erros em documentos semiestruturados
<a name="idp-inputs-sync-err"></a>

 A operação [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.

### Erros no nível da página
<a name="idp-inputs-sync-page-err"></a>

 Se a operação da [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na [lista de erros](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html) para cada erro.

O `ErrorCode` na lista de erros contém um dos seguintes valores:
+ TEXTRACT\$1BAD\$1PAGE: o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte [Cotas de página no Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html).
+ TEXTRACT\$1PROVISIONED\$1THROUGHPUT\$1EXCEEDED: o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte [Cotas padrão no Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html).
+ PAGE\$1CHARACTERS\$1EXCEEDED: muitos caracteres de texto na página (máximo de 10.000 caracteres).
+ PAGE\$1SIZE\$1EXCEEDED: o tamanho máximo da página é 10 MB.
+ INTERNAL\$1SERVER\$1ERROR: a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.

### Erros no nível de documento
<a name="idp-inputs-sync-doc-err"></a>

Se a operação [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)ou [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API detectar um erro em nível de documento em seu documento de entrada, a API retornará uma `InvalidRequestException` resposta de erro. 

Na resposta de erro, o valor no campo **Reason** irá conter o valor `INVALID_DOCUMENT`. 

O campo **Detail** contém um dos seguintes valores:
+ DOCUMENT\$1SIZE\$1EXCEEDED: o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.
+ UNSUPPORTED\$1DOC\$1TYPE: o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.
+ PAGE\$1LIMIT\$1EXCEEDED: muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.
+ TEXTRACT\$1ACCESS\$1DENIED\$1EXCEPTION: acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)e [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)da API e reenvie a solicitação.