Atributos ou campos do documento - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Atributos ou campos do documento

Um documento tem atributos ou campos associados a ele. Os campos de um documento são as propriedades de um documento ou o que está contido na estrutura de um documento. Por exemplo, cada um dos documentos pode conter título, corpo do texto e autor. Você também pode adicionar campos personalizados para documentos específicos. Por exemplo, se o índice pesquisar documentos fiscais, você poderá especificar um campo personalizado para o tipo de documento fiscal, como W-2, 1099 e assim por diante.

Antes de usar um campo de documento em uma consulta, ele deve ser mapeado para um campo de índice. Por exemplo, o campo do título pode ser mapeado para o campo_document_title. Para obter mais informações, consulte Mapear campos. Para adicionar um novo campo, você deve criar um campo de índice para o qual mapear o campo. Você cria campos de índice usando o console ou usando UpdateIndexAPIo.

Você pode usar os campos do documento para filtrar respostas e criar resultados de pesquisa facetados. Por exemplo, você pode filtrar uma resposta para retornar somente uma versão específica de um documento ou filtrar pesquisas para retornar somente documentos fiscais do tipo 1099 que correspondam ao termo de pesquisa. Para obter mais informações, consulte Filtrar e pesquisar por facetas.

Você também pode usar os campos do documento para ajustar manualmente a resposta da consulta. Por exemplo, você pode optar por aumentar a importância do campo do título para aumentar o peso que Amazon Kendra atribui ao campo ao determinar quais documentos devem ser devolvidos na resposta. Para obter mais informações, consulte Ajustar a relevância da pesquisa.

Se você estiver adicionando um documento diretamente a um índice, especifique os campos no parâmetro de entrada Documento para BatchPutDocumentAPIo. Você especifica os valores do campo personalizado em uma matriz de DocumentAttributeobjetos. Se você estiver usando uma fonte de dados, o método usado para adicionar os campos do documento dependerá da fonte de dados. Para obter mais informações, consulte Mapear campos de fonte de dados.

O uso do Amazon Kendra campos de documentos reservados ou comuns

Com o UpdateIndex API, você pode criar campos reservados ou comuns usando DocumentMetadataConfigurationUpdates e especificando o Amazon Kendra nome do campo de índice reservado para mapear para seu atributo de documento/nome de campo equivalente. Você também pode criar campos personalizados. Se você usa um conector de fonte de dados, a maioria inclui mapeamentos de campo que mapeiam os campos do documento da fonte de dados para Amazon Kendra campos de índice. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados.

Você pode configurar o objeto Search para definir um campo como exibível, facetável, pesquisável e classificável. Configure o objeto Relevance para definir a ordem de classificação, a duração do aumento ou o período de tempo de um campo a ser aplicado ao aumento, à atualização, ao valor de importância e aos valores de importância mapeados para valores de campo específicos. Se usar o console, defina as configurações de pesquisa de um campo selecionando a opção de faceta no menu de navegação. Para definir o ajuste de relevância, selecione a opção de pesquisar o índice no menu de navegação, insira uma consulta e use as opções do painel lateral para ajustar a relevância da pesquisa. Você não pode alterar o tipo de campo depois de criar o campo.

Amazon Kendra tem os seguintes campos de documento reservados ou comuns que você pode usar:

  • _authors: uma lista de um ou mais autores responsáveis pelo conteúdo do documento.

  • _category: uma categoria que coloca um documento em um grupo específico.

  • _created_at— A data e a hora no formato ISO 8601 em que o documento foi criado. Por exemplo, 2012-03-25T 12:30:10 + 01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _data_source_id: o identificador da fonte de dados que contém o documento.

  • _document_body: o conteúdo do documento de trabalho.

  • _document_id: o identificador exclusivo de cada documento.

  • _document_title: o título do documento.

  • _excerpt_page_number—O número da página em um PDF arquivo em que o trecho do documento aparece. Se o índice foi criado antes de 8 de setembro de 2020, você deve reindexar os documentos antes de poder usar esse atributo.

  • _faq_id—Se for um documento do tipo pergunta-resposta (FAQ), um identificador exclusivo para o. FAQ

  • _file_type: o tipo de arquivo do documento, como pdf ou doc.

  • _last_updated_at— A data e a hora no formato ISO 8601 em que o documento foi atualizado pela última vez. Por exemplo, 2012-03-25T 12:30:10 + 01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _source_uriURI—Onde o documento está disponível. Por exemplo, o URI do documento no site de uma empresa.

  • _version: um identificador para a versão específica de um documento.

  • _view_count: o número de vezes que o documento foi visualizado.

  • _language_code(String): o código de um idioma que se aplica ao documento. O padrão é inglês se você não especificar um idioma. Para obter mais informações sobre os idiomas suportados, incluindo os códigos, consulte Adicionar documentos em outros idiomas além do inglês.

Para campos personalizados, você cria esses campos usando DocumentMetadataConfigurationUpdates o UpdateIndexAPI, da mesma forma que você faz ao criar um campo reservado ou comum. Você deve definir o tipo de dados apropriado para o campo personalizado. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados. Algumas fontes de dados não oferecem suporte à adição de novos campos ou campos personalizados. Você não pode alterar o tipo de campo depois de criar o campo.

Estes são os tipos que podem ser definidos em campos personalizados:

  • Data

  • Número

  • String

  • Lista de strings

Se você adicionou documentos ao índice usando BatchPutDocumentAPI, Attributes lista os campos/atributos de seus documentos e cria campos usando o objeto. DocumentAttribute

Para documentos indexados a partir de um Amazon S3 fonte de dados, você cria campos usando um arquivo de JSON metadados que inclui as informações dos campos.

Ao usar um banco de dados compatível como fonte de dados, poderá configurae as campos usando a opção de mapeamentos de campo.