As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Entradas para análise personalizada em tempo real
A análise em tempo real usando modelos personalizados usa um único documento como entrada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar.
Tópicos
Documentos de texto simples
Forneça os documentos de entrada como texto no formato UTF-8.
Documentos semiestruturados
Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word.
Por padrão, a análise personalizada em tempo real usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos em PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurando opções de extração de texto.
Arquivos de imagem e arquivos PDF digitalizados
Os tipos de imagem compatíveis incluem JPEG, PNG e TIFF.
Por padrão, o reconhecimento personalizado de identidades usa a operação de API DetectDocumentText
do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument
. Consulte Configurando opções de extração de texto.
Saída do Amazon Textract
Você pode fornecer a saída JSON da API DetectDocumentText
ou da API AnalyzeDocument
do Amazon Textract como entrada para as operações de API em tempo real para classificação personalizada e reconhecimento personalizado de entidades. O Amazon Comprehend oferece suporte a esse tipo de entrada para as operações de API em tempo real, mas não para o console.
Tamanhos máximos de documentos para análise em tempo real
Para todos os tipos de documentos de entrada, o máximo do arquivo de entrada é de uma página, com no máximo 10.000 caracteres.
A tabela a seguir mostra os tamanhos máximos de arquivo dos documentos de entrada.
Tipo de arquivo | Tamanho máximo (API) | Tamanho máximo (console) |
---|---|---|
Documentos de texto em UTF-8 | 10 KB | 10 KB |
Documentos em PDF | 10 MB | 5 MB |
Documentos do Word | 10 MB | 1 MB |
Arquivos de imagem | 10 MB | 5 MB |
Arquivos de saída do Textract | 1 MB | n/a |
Erros em documentos semiestruturados
A operação ClassifyDocumentou DetectEntitiesAPI pode encontrar erros no nível do documento ou da página ao extrair texto de um documento semiestruturado ou de um arquivo de imagem.
Erros no nível da página
Se a operação da DetectEntitiesAPI ClassifyDocumentou encontrar erros ao processar uma página no documento de entrada, a resposta da API incluirá uma entrada na lista de erros para cada erro.
O ErrorCode
na lista de erros contém um dos seguintes valores:
-
TEXTRACT_BAD_PAGE – o Amazon Textract não consegue ler a página. Para obter mais informações sobre limites de página no Amazon Textract, consulte Cotas de página no Amazon Textract.
-
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED – o número de solicitações excedeu seu limite de throughput. Para obter mais informações sobre cotas de throughput no Amazon Textract, consulte Cotas padrão no Amazon Textract.
-
PAGE_CHARACTERS_EXCEEDED – muitos caracteres de texto na página (máximo de 10.000 caracteres).
-
PAGE_SIZE_EXCEEDED – o tamanho máximo da página é 10 MB.
-
INTERNAL_SERVER_ERROR – a solicitação encontrou um problema de serviço. Tente a solicitação da API novamente.
Erros no nível de documento
Se a operação ClassifyDocumentou DetectEntitiesAPI detectar um erro em nível de documento em seu documento de entrada, a API retornará uma InvalidRequestException
resposta de erro.
Na resposta de erro, o valor no campo Reason irá conter o valor INVALID_DOCUMENT
.
O campo Detail contém um dos seguintes valores:
-
DOCUMENT_SIZE_EXCEEDED – o tamanho do documento é muito grande. Verifique o tamanho do seu arquivo e reenvie a solicitação.
-
UNSUPPORTED_DOC_TYPE – o tipo de documento não é compatível. Verifique o tipo do seu arquivo e reenvie a solicitação.
-
PAGE_LIMIT_EXCEEDED – muitas páginas no documento. Verifique o número de páginas do seu arquivo e reenvie a solicitação.
-
TEXTRACT_ACCESS_DENIED_EXCEPTION – acesso negado ao Amazon Textract. Verifique se sua conta tem permissão para usar as operações do Amazon Textract DetectDocumentTexte AnalyzeDocumentda API e reenvie a solicitação.