As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Formatos de arquivo para análise assíncrona
Ao executar a análise assíncrona com seu modelo, você tem uma escolha de formatos para documentos de entrada: One document per line
ou one document per file
. O formato usado depende do tipo de documento que deseja analisar, conforme descrito na tabela a seguir.
Descrição | Formato |
---|---|
A entrada contém vários arquivos. Cada arquivo contém um documento de entrada. Esse formato é ideal para coleções de documentos grandes, como artigos de jornal ou artigos científicos. Além disso, use esse formato para documentos semiestruturados (arquivos de imagem ou Docx) usando um classificador de documentos nativo. PDF |
Um documento por arquivo |
A entrada é um ou mais arquivos. Cada linha no arquivo é um documento de entrada separado. Esse formato é ideal para documentos curtos, como mensagens de texto ou publicações em redes sociais. |
Um documento por linha |
Um documento por arquivo
Com o formato one document per file
, cada arquivo representa um documento de entrada.
Um documento por linha
Com o formato One document per line
, cada documento é colocado em uma linha separada e nenhum cabeçalho é usado. O rótulo não está incluído em cada linha (já que você ainda não conhece o rótulo do documento). Cada linha do arquivo (o final do documento individual) deve terminar com uma alimentação de linha (LF,\n), uma devolução de carro (CR,\ r) ou ambas (CRLF,\ r\n). Não use o separador de linha UTF -8 (u+2028) para finalizar uma linha.
O exemplo a seguir mostra o formato do arquivo de entrada.
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
Para qualquer formato, use a codificação UTF -8 para arquivos de texto. Depois de preparar os arquivos, coloque-os no bucket do S3 que está usando para os dados de entrada.
Ao iniciar uma tarefa de classificação, você especifica esse local do Amazon S3 para seus dados de entrada. O URI deve estar na mesma região do API endpoint que você está chamando. URIPode apontar para um único arquivo (como ao usar o método “um documento por linha”) ou pode ser o prefixo de uma coleção de arquivos de dados.
Por exemplo, se você usar o URIS3://bucketName/prefix
, se o prefixo for um único arquivo, o Amazon Comprehend usará esse arquivo como entrada. Se mais de um arquivo começar com o prefixo, o Amazon Comprehend usará todos eles como entrada.
Conceda ao Amazon Comprehend acesso ao bucket do S3 contendo sua coleção de documentos e arquivos de saída. Para obter mais informações, consulte Permissões baseadas em perfis necessárias para operações assíncronas.