Formatos de arquivo para análise assíncrona

Ao executar a análise assíncrona com seu modelo, você tem uma escolha de formatos para documentos de entrada: One document per line ou one document per file. O formato usado depende do tipo de documento que deseja analisar, conforme descrito na tabela a seguir.

Description	Formato
A entrada contém vários arquivos. Cada arquivo contém um documento de entrada. Esse formato é ideal para coleções de documentos grandes, como artigos de jornal ou artigos científicos. Além disso, use esse formato para documentos semiestruturados (arquivos de imagem, PDF ou Docx) usando um classificador de documentos nativo.	Um documento por arquivo
A entrada é um ou mais arquivos. Cada linha no arquivo é um documento de entrada separado. Esse formato é ideal para documentos curtos, como mensagens de texto ou publicações em redes sociais.	Um documento por linha

Description

Formato

A entrada contém vários arquivos. Cada arquivo contém um documento de entrada. Esse formato é ideal para coleções de documentos grandes, como artigos de jornal ou artigos científicos.

Além disso, use esse formato para documentos semiestruturados (arquivos de imagem, PDF ou Docx) usando um classificador de documentos nativo.

Um documento por arquivo

A entrada é um ou mais arquivos. Cada linha no arquivo é um documento de entrada separado. Esse formato é ideal para documentos curtos, como mensagens de texto ou publicações em redes sociais.

Um documento por linha

Um documento por arquivo

Com o formato one document per file, cada arquivo representa um documento de entrada.

Um documento por linha

Com o formato One document per line, cada documento é colocado em uma linha separada e nenhum cabeçalho é usado. O rótulo não está incluído em cada linha (já que você ainda não conhece o rótulo do documento). Cada linha do arquivo (o final do documento individual) deve terminar com uma alimentação de linha (LF,\n), uma devolução de carro (CR,\ r) ou ambas (CRLF, \r\n). Não use o separador de UTF-8 linha (u+2028) para finalizar uma linha.

O exemplo a seguir mostra o formato do arquivo de entrada.


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

Para qualquer formato, use a UTF-8 codificação para arquivos de texto. Depois de preparar os arquivos, coloque-os no bucket do S3 que está usando para os dados de entrada.

Ao iniciar uma tarefa de classificação, você especifica esse local do Amazon S3 para seus dados de entrada. O URI deve estar na mesma região que a API do endpoint que você está chamando. O URI pode apontar para um único arquivo (como ao usar o método “um documento por linha”) ou pode ser o prefixo de uma coleção de arquivos de dados.

Por exemplo, se você usar o URI S3://bucketName/prefix, se o prefixo for um único arquivo, o Amazon Comprehend usará esse arquivo como entrada. Se mais de um arquivo começar com o prefixo, o Amazon Comprehend usará todos eles como entrada.

Conceda ao Amazon Comprehend acesso ao bucket do S3 contendo sua coleção de documentos e arquivos de saída. Para obter mais informações, consulte Role-based permissões necessárias para operações assíncronas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Executar trabalhos de análise assíncrona

Tarefas de análise (console)