Entradas para análise personalizada assíncrona - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entradas para análise personalizada assíncrona

Você pode inserir vários documentos em um trabalho assíncrono de análise personalizada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar. O tamanho máximo de arquivo muda de acordo com o tipo de documento de entrada.

Documentos de texto simples

Forneça todos os documentos de entrada de texto sem formatação como texto no formato UTF-8. A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.

nota

Esses limites se aplicam quando todos os arquivos de entrada forem texto simples.

Descrição Cota/diretriz
Tamanho máximo de arquivo para um documento por formato de arquivo (classificação personalizada) 1 byte a 10 MB
Tamanho do documento (reconhecimento personalizado de entidades) 1 byte a 1 MB
Número máximo de arquivos, um documento por arquivo 1.000.000
Número máximo de linhas, um documento por linha (para todos os arquivos solicitados) 1.000.000
Tamanho do corpo do documento (todos os documentos em texto simples combinados) 1 byte a 5 GB

Documentos semiestruturados

Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word.

A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.

Descrição Cota/diretriz
Tamanho do documento (PDF) 1 byte a 50 MB
Tamanho do documento (Docx) 1 byte a 5 MB
Número máximo de perfis 500
Número máximo de páginas para um arquivo PDF ou Docx 100
Tamanho do corpus do documento após a extração do texto (texto simples, todos os arquivos combinados) 1 byte a 5 GB

Por padrão, a análise personalizada usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurando opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

A análise personalizada é compatível com imagens JPEG, PNG e TIFF.

A tabela a seguir lista os tamanhos máximos de arquivo para imagens. Os arquivos PDF digitalizados estão sujeitos aos mesmos tamanhos máximos dos arquivos PDF nativos.

Descrição Cota/diretriz
Tamanho da imagem (JPG ou PNG) 1 byte a 10 MB
Tamanho da imagem (TIFF) 1 byte a 10 MB. Máximo de uma página.

Para obter informações adicionais sobre conformidade, consulte Práticas recomendadas para imagens.

Por padrão, o Amazon Comprehend usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurando opções de extração de texto.

Arquivos JSON de saída do Amazon Textract

Para reconhecimento de entidades personalizadas, mas não para classificação personalizada, você pode fornecer o arquivo de saída da operação de API AnalyzeDocument do Amazon Textract como entrada para trabalhos de análise.