As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Entradas para análise personalizada assíncrona
Você pode inserir vários documentos em um trabalho assíncrono de análise personalizada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar. O tamanho máximo de arquivo muda de acordo com o tipo de documento de entrada.
Tópicos
Documentos de texto simples
Forneça todos os documentos de entrada de texto sem formatação como texto no formato UTF-8. A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.
nota
Esses limites se aplicam quando todos os arquivos de entrada forem texto simples.
Descrição | Cota/diretriz |
---|---|
Tamanho máximo de arquivo para um documento por formato de arquivo (classificação personalizada) | 1 byte a 10 MB |
Tamanho do documento (reconhecimento personalizado de entidades) | 1 byte a 1 MB |
Número máximo de arquivos, um documento por arquivo | 1.000.000 |
Número máximo de linhas, um documento por linha (para todos os arquivos solicitados) | 1.000.000 |
Tamanho do corpo do documento (todos os documentos em texto simples combinados) | 1 byte a 5 GB |
Documentos semiestruturados
Os documentos semiestruturados incluem documentos PDF nativos e documentos do Word.
A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.
Descrição | Cota/diretriz |
---|---|
Tamanho do documento (PDF) | 1 byte a 50 MB |
Tamanho do documento (Docx) | 1 byte a 5 MB |
Número máximo de perfis | 500 |
Número máximo de páginas para um arquivo PDF ou Docx | 100 |
Tamanho do corpus do documento após a extração do texto (texto simples, todos os arquivos combinados) | 1 byte a 5 GB |
Por padrão, a análise personalizada usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurando opções de extração de texto.
Arquivos de imagem e arquivos PDF digitalizados
A análise personalizada é compatível com imagens JPEG, PNG e TIFF.
A tabela a seguir lista os tamanhos máximos de arquivo para imagens. Os arquivos PDF digitalizados estão sujeitos aos mesmos tamanhos máximos dos arquivos PDF nativos.
Descrição | Cota/diretriz |
---|---|
Tamanho da imagem (JPG ou PNG) | 1 byte a 10 MB |
Tamanho da imagem (TIFF) | 1 byte a 10 MB. Máximo de uma página. |
Para obter informações adicionais sobre conformidade, consulte Práticas recomendadas para imagens.
Por padrão, o Amazon Comprehend usa a operação de API DetectDocumentText
do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument
. Consulte Configurando opções de extração de texto.
Arquivos JSON de saída do Amazon Textract
Para reconhecimento de entidades personalizadas, mas não para classificação personalizada, você pode fornecer o arquivo de saída da operação de API AnalyzeDocument
do Amazon Textract como entrada para trabalhos de análise.