Documentos de texto simples Documentos do Semi-structured Arquivos de imagem e arquivos PDF digitalizados Arquivos JSON de saída do Amazon Textract

Entradas para análise personalizada assíncrona

Você pode inserir vários documentos em um trabalho assíncrono de análise personalizada. Os tópicos a seguir descrevem os tipos de documentos de entrada que você pode usar. O tamanho máximo de arquivo muda de acordo com o tipo de documento de entrada.

Tópicos

Documentos de texto simples
Documentos do Semi-structured
Arquivos de imagem e arquivos PDF digitalizados
Arquivos JSON de saída do Amazon Textract

Documentos de texto simples

Forneça todos os documentos de entrada de texto sem formatação como texto. UTF-8-formatted A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.

nota

Esses limites se aplicam quando todos os arquivos de entrada forem texto simples.

Description	Quota/Guideline
Tamanho máximo de arquivo para um documento por formato de arquivo (classificação personalizada)	1 byte a 10 MB
Tamanho do documento (reconhecimento personalizado de entidades)	1 byte a 1 MB
Número máximo de arquivos, um documento por arquivo	1.000.000
Número máximo de linhas, um documento por linha (para todos os arquivos solicitados)	1.000.000
Tamanho do corpo do documento (todos os documentos em texto simples combinados)	1 byte a 5 GB

Documentos do Semi-structured

Semi-structured os documentos incluem documentos PDF nativos e documentos do Word.

A tabela a seguir lista os tamanhos máximos de arquivo e outras diretrizes.

Description	Quota/Guideline
Tamanho do documento (PDF)	1 byte a 50 MB
Tamanho do documento (Docx)	1 byte a 5 MB
Número máximo de perfis	500
Número máximo de páginas para um arquivo PDF ou Docx	100
Tamanho do corpus do documento após a extração do texto (texto simples, todos os arquivos combinados)	1 byte a 5 GB

Por padrão, a análise personalizada usa o analisador do Amazon Comprehend para extrair o texto de arquivos Word e arquivos PDF digitais. Para arquivos PDF, você pode substituir esse padrão e usar o Amazon Textract para extrair o texto. Consulte Configurar opções de extração de texto.

Arquivos de imagem e arquivos PDF digitalizados

A análise personalizada é compatível com imagens JPEG, PNG e TIFF.

A tabela a seguir lista os tamanhos máximos de arquivo para imagens. Os arquivos PDF digitalizados estão sujeitos aos mesmos tamanhos máximos dos arquivos PDF nativos.

Description	Quota/Guideline
Tamanho da imagem (JPG ou PNG)	1 byte a 10 MB
Tamanho da imagem (TIFF)	1 byte a 10 MB. Máximo de uma página.

Para obter informações adicionais sobre conformidade, consulte Práticas recomendadas para imagens.

Por padrão, o Amazon Comprehend usa a operação de API DetectDocumentText do Amazon Textract para extrair o texto de arquivos de imagem e arquivos PDF digitalizados. Como alternativa, você pode substituir esse padrão para usar a operação de API AnalyzeDocument. Consulte Configurar opções de extração de texto.

Arquivos JSON de saída do Amazon Textract

Para reconhecimento de entidades personalizadas, mas não para classificação personalizada, você pode fornecer o arquivo de saída da operação de API AnalyzeDocument do Amazon Textract como entrada para trabalhos de análise.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Entradas para análise em tempo real

Configurar opções de extração de texto