Conecte-se ao Confluence para obter sua base de conhecimento do Amazon Bedrock - Amazon Bedrock

Conecte-se ao Confluence para obter sua base de conhecimento do Amazon Bedrock

O Confluence da Atlassian é uma ferramenta colaborativa de gerenciamento de trabalho projetada para compartilhar, armazenar e trabalhar no planejamento de projetos, no desenvolvimento de software e no gerenciamento de produtos. É possível conectar-se à instância do Confluence de sua base de conhecimento do Amazon Bedrock usando o Console de Gerenciamento da AWS para o Amazon Bedrock ou a API CreateDataSource (consulte os SDKs compatíveis com o Amazon Bedrock e a AWS CLI).

nota

O conector de fonte de dados do Confluence está em versão de prévia e está sujeito a alterações.

O Amazon Bedrock é compatível com a conexão com instâncias do Confluence Cloud. No momento, somente o armazenamento de vetores do Amazon OpenSearch Sem Servidor está disponível para uso com essa fonte de dados.

Há limites para quantos arquivos e MB por arquivo podem ser rastreados. Consulte Quotas for knowledge bases.

Recursos compatíveis

  • Detecção automática dos campos de documento principais

  • Filtros de conteúdo de inclusão/exclusão

  • Sincronizações de conteúdo incrementais para conteúdo adicionado, atualizado e excluído

  • Autenticação OAuth 2.0, autenticação com token da API Confluence

Pré-requisitos

No Confluence, verifique se você tem:

  • Anote o URL da instância do Confluence. Por exemplo, para o Confluence Cloud, https://example.atlassian.net. O URL do Confluence Cloud deve ser o URL base, terminando com .atlassian.net.

  • Configure as credenciais básicas de autenticação contendo um nome de usuário (e-mail da conta de administrador) e senha (token da API do Confluence) para permitir que o Amazon Bedrock se conecte à instância do Confluence Cloud. Para obter informações sobre como criar um token da API Confluence, consulte Manage API tokens for your Atlassian account no site da Atlassian.

  • (Opcional) Configure uma aplicação OAuth 2.0 com credenciais de uma chave da aplicação, um segredo da aplicação, um token de acesso e um token de atualização. Para obter mais informações, consulte OAuth 2.0 apps no site da Atlassian.

  • Determinadas permissões ou escopos de leitura devem estar habilitados para que a aplicação OAuth 2.0 se conecte ao Confluence.

    API do Confluence:

    • offline_access

    • readonly:content.attachment:confluence

    • read:confluence-content.all

    • read:confluence-content.summary

    • read:confluence-space.summary

Na conta da AWS, não se esqueça de:

  • Armazenar as credenciais de autenticação em um segredo do AWS Secrets Manager e anotar o nome do recurso da Amazon (ARN) do segredo. Seguir as instruções de Configuração da conexão nesta página para incluir os pares de chave-valor que devem ser incluídos no segredo.

  • Incluir as permissões necessárias para se conectar à fonte de dados na política de perfil/permissões do AWS Identity and Access Management (IAM) da base de conhecimento. Para obter informações sobre as permissões necessárias para que essa fonte de dados seja adicionada ao perfil do IAM da base de conhecimento, consulte Permissions to access data sources.

nota

Se usar o console, você poderá ir ao AWS Secrets Manager para adicionar o segredo ou usar um segredo existente como parte da etapa de configuração da fonte de dados. O perfil do IAM com todas as permissões necessárias pode ser criado para você como parte das etapas do console para criação de uma base de conhecimento. Depois que você tiver definido a fonte de dados e as outras configurações, o perfil do IAM com todas as permissões necessárias será aplicado à base de conhecimento específica.

É recomendável atualizar ou alternar regularmente suas credenciais e senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não é recomendável reutilizar credenciais e senhas em fontes de dados.

Configuração de conexão

Para conectar-se à instância do Confluence, forneça as informações de configuração necessárias para que o Amazon Bedrock possa acessar e rastrear seus dados. Você também deve seguir os Pré-requisitos.

Um exemplo de configuração dessa fonte de dados está incluído nesta seção.

Para obter mais informações sobre a detecção automática dos campos de documento, filtros de inclusão/exclusão, sincronização incremental, credenciais de autenticação de segredos e como eles funcionam, selecione o seguinte:

O conector da fonte de dados detecta e rastreia automaticamente todos os campos de metadados principais dos documentos ou do conteúdo. Por exemplo, o conector da fonte de dados pode rastrear o corpo do documento equivalente aos documentos, o título do documento, a data de criação ou de modificação do documento ou outros campos principais que possam ser aplicados aos documentos.

Importante

Se o conteúdo incluir informações confidenciais, o Amazon Bedrock poderá responder usando informações confidenciais.

Você pode aplicar operadores de filtragem aos campos de metadados para ajudar a aumentar ainda mais a relevância das respostas. Por exemplo, o documento “epoch_modification_time” ou o número de segundos transcorridos desde 1.º de janeiro de 1970, quando o documento foi atualizado pela última vez. Você pode filtrar os dados mais recentes, em que “epoch_modification_time” é maior que um determinado número. Para obter mais informações sobre os operadores de filtragem que podem ser aplicados aos campos de metadados, consulte Metadados e filtragem.

É possível incluir ou excluir o crawling de determinado conteúdo. Por exemplo, é possível especificar um prefixo/padrão de expressão regular para ignorar o crawling de qualquer arquivo que contenha “privado” no nome do arquivo. Também é possível especificar um prefixo de inclusão/padrão de expressão regular para incluir determinadas entidades de conteúdo ou tipos de conteúdo. Se você especificar um filtro de inclusão e de exclusão e ambos corresponderem a um documento, o filtro de exclusão terá precedência e o documento não será rastreado.

Um exemplo de um padrão de expressão regular para excluir ou filtrar arquivos PDF que contêm “privado” no nome do arquivo: “.*private.*\\.pdf”

É possível aplicar filtros de inclusão/exclusão nos seguintes tipos de conteúdo:

  • Space: chave de espaço exclusiva

  • Page: título da página principal

  • Blog: título do blog principal

  • Comment: comentários que pertencem a uma determinada página ou blog. Especificar Re: Título da página/blog

  • Attachment: nome do arquivo anexado com sua extensão

O conector da fonte de dados rastreia conteúdo novo, modificado e excluído sempre que a fonte de dados for sincronizada com a base de conhecimento. O Amazon Bedrock pode usar o mecanismo de fonte de dados para rastrear alterações no conteúdo e o conteúdo que foi alterado desde a última sincronização. Ao sincronizar a fonte de dados com a base de conhecimento pela primeira vez, todo o conteúdo é rastreado por padrão.

Para sincronizar a fonte de dados com a base de conhecimento, use a API StartIngestionJob ou selecione a base de conhecimento no console e escolha Sincronizar na seção de visão geral da fonte de dados.

Importante

Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões bedrock:Retrieve para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Knowledge base permissions.

(Se estiver usando autenticação básica) Suas credenciais de autenticação secreta do AWS Secrets Manager devem incluir esses pares de chave-valor:

  • username: endereço de e-mail do usuário administrador da conta da Atlassian

  • password: token da API Confluence

(Se estiver usando a autenticação OAuth 2.0) Suas credenciais de autenticação secreta do AWS Secrets Manager devem incluir esses pares de chave-valor:

  • confluenceAppKey: chave da aplicação

  • confluenceAppSecret: segredo da aplicação

  • confluenceAccessToken: token de acesso da aplicação

  • confluenceRefreshToken: token de atualização da aplicação

nota

O token de acesso do Confluence OAuth2.0 tem um prazo de expiração padrão de 60 minutos. Se esse token expirar enquanto a fonte de dados estiver em sincronização (trabalho de sincronização), o Amazon Bedrock usará o token de atualização fornecido para regenerar esse token. Essa regeneração atualiza os tokens de acesso e de atualização. Para manter os tokens atualizados do trabalho de sincronização atual até o próximo trabalho de sincronização, o Amazon Bedrock exige permissões de gravação/colocação para suas credenciais secretas como parte do perfil do IAM da sua base de conhecimento.

nota

O segredo no AWS Secrets Manager deve usar a mesma região da base de conhecimento.

Console

Veja um exemplo de uma configuração para conexão ao Confluence da base de conhecimento do Amazon Bedrock. Você configura a fonte de dados como parte das etapas de criação da base de conhecimento no console.

  1. Faça login no AWS Management Console usando um perfil do IAM com as permissões do Amazon Bedrock e abra o console do Amazon Bedrock em https://console.aws.amazon.com/bedrock/.

  2. No painel de navegação à esquerda, selecione Bases de conhecimento.

  3. Na seção Bases de conhecimento, selecione Criar uma base de conhecimento.

  4. Forneça os detalhes da base de conhecimento.

    1. Forneça o nome da base de conhecimento e uma descrição opcional.

    2. Forneça o perfil do AWS Identity and Access Management para as permissões de acesso necessárias para criar uma base de conhecimento.

      nota

      O perfil do IAM com todas as permissões necessárias pode ser criado para você como parte das etapas do console para criação de uma base de conhecimento. Após a conclusão das etapas de criação de uma base de conhecimento, o perfil do IAM com todas as permissões necessárias será aplicado à base de conhecimento específica.

    3. Crie todas as tags que deseja atribuir à base de conhecimento.

    Vá para a próxima seção para configurar a fonte de dados.

  5. Escolha o Confluence como a fonte de dados e forneça os detalhes da configuração da conexão.

    1. Forneça um nome e uma descrição (opcional) para a fonte de dados.

    2. Forneça o URL da instância do Confluence. Por exemplo, para o Confluence Cloud, https://example.atlassian.net. O URL do Confluence Cloud deve ser o URL base, terminando com .atlassian.net.

    Verifique as configurações avançadas. Opcionalmente, é possível alterar as configurações padrão selecionadas.

  6. Defina a chave de criptografia de dados transitória e a política de exclusão de dados nas configurações avançadas.

    Para configurações da KMS key, é possível escolher uma chave personalizada ou usar a chave de criptografia de dados padrão fornecida.

    Ao converter os dados em incorporações, o Amazon Bedrock criptografa os dados transitórios com uma chave pertencente e gerenciada pela AWS, por padrão. Você pode usar a própria chave do KMS. Para obter mais informações, consulte Criptografia de armazenamento de dados temporário durante a ingestão de dados.

    Para configurações da política de exclusão de dados, você pode escolher uma das seguintes opções:

    • Excluir: exclui todos os dados da fonte de dados que são convertidos em incorporações de vetores após a exclusão de uma base de conhecimento ou de recurso de fonte de dados. O armazenamento de vetores propriamente dito não é excluído, apenas os dados. Esse sinalizador será ignorado se uma conta da AWS for excluída.

    • Reter: retém todos os dados da fonte de dados que são convertidos em incorporações de vetores após a exclusão de uma base de conhecimento ou recurso de fonte de dados. Observe que o armazenamento de vetores em si não será excluído se você excluir uma base de conhecimento ou um recurso de fonte de dados.

    Continue a configuração da fonte de dados.

  7. Forneça as informações de autenticação para conectar-se à instância do Confluence:

    1. Para autenticação básica, acesse o AWS Secrets Manager para adicionar suas credenciais de autenticação secreta ou usar um nome do recurso da Amazon (ARN) existente para o segredo criado. O segredo deve conter o endereço de e-mail do usuário administrador da conta da Atlassian como o nome de usuário e um token da API Confluence no lugar de uma senha. Para obter informações sobre como criar um token da API Confluence, consulte Manage API tokens for your Atlassian account no site da Atlassian.

    2. Para autenticação OAuth 2.0, acesse o AWS Secrets Manager para adicionar as credenciais de autenticação secreta ou usar um nome do recurso da Amazon (ARN) existente para o segredo criado. O segredo deve conter a chave da aplicação Confluence, o segredo da aplicação, o token de acesso e o token de atualização. Para obter mais informações, consulte OAuth 2.0 apps no site da Atlassian.

    Continue a configuração da fonte de dados.

  8. Opte por usar filtros/padrões de expressões normais para incluir ou excluir determinado conteúdo. Caso contrário, todo o conteúdo padrão será rastreado.

    Continue a configuração da fonte de dados.

  9. Escolha as configurações padrão ou personalizadas de fragmentação e análise.

    1. Se você escolher configurações personalizadas, selecione uma das seguintes opções de fragmentação:

      • Fragmentação de tamanho fixo: conteúdo dividido em fragmentos de texto com o tamanho aproximado do token definido. É possível definir o número máximo de tokens que não devem exceder um fragmento e a porcentagem de sobreposição entre fragmentos consecutivos.

      • Fragmentação padrão: conteúdo dividido em fragmentos de texto de até 300 tokens. Se um único documento ou parte do conteúdo contiver menos de 300 tokens, o documento não será mais dividido.

      • Fragmentação hierárquica: conteúdo organizado em estruturas aninhadas de fragmentos pai-filho. Você define o tamanho máximo do token do fragmento principal e o tamanho máximo do token do fragmento secundário. Você também define o número absoluto de tokens de sobreposição entre fragmentos consecutivos principais e fragmentos secundários consecutivos.

      • Fragmentação semântica: conteúdo organizado em fragmentos de texto semelhantes de forma semântica ou grupos de frases. Você define o número máximo de frases ao redor da frase de destino/atual a serem agrupadas (tamanho do buffer). Você também define o limite do percentil do ponto de interrupção para dividir o texto em fragmentos significativos. A fragmentação semântica usa um modelo de base. Consulte Preços do Amazon Bedrock para obter informações sobre o custo dos modelos de base.

      • Sem fragmentação: cada documento é tratado como um único fragmento de texto. Se escolher essa opção, talvez queira pré-processar os documentos, dividindo-os em arquivos separados.

      nota

      Não será possível alterar a estratégia de fragmentação depois de criar a fonte de dados.

    2. Você pode optar por usar o modelo de base do Amazon Bedrock em análise de documentos para analisar não apenas o texto padrão. É possível analisar dados tabulares em documentos com sua estrutura intacta, por exemplo. Consulte Preços do Amazon Bedrock para obter informações sobre o custo dos modelos de base.

    3. É possível optar por usar uma função do AWS Lambda para personalizar a estratégia de fragmentação e como os atributos/campos de metadados do documento são tratados e ingeridos. Forneça o local do bucket do Amazon S3 para a entrada e a saída da função do Lambda.

    Acesse a próxima seção para configurar o armazenamento de vetores.

  10. Escolha um modelo para converter os dados em incorporações de vetores.

    Crie um armazenamento de vetores para permitir que o Amazon Bedrock armazene, atualize e gerencie incorporações. É possível criar rapidamente um armazenamento de vetores ou selecionar um compatível que você já tenha criado. No momento, somente o armazenamento de vetores do Amazon OpenSearch Sem Servidor está disponível para uso com essa fonte de dados. Se você criar um armazenamento de vetores, uma coleção e um índice de pesquisa vetorial do Amazon OpenSearch Sem Servidor com os campos obrigatórios serão configurados para você. Se você selecionar um armazenamento de vetores compatível, deverá correlacionar os nomes dos campos de vetores e os nomes dos campos de metadados.

    Acesse a próxima seção para revisar as configurações da base de conhecimento.

  11. Verifique os detalhes da base de conhecimento. É possível editar qualquer seção antes de começar a criar a base de conhecimento.

    nota

    O tempo necessário para criar a base de conhecimento depende de suas configurações específicas. Quando a criação da base de conhecimento é concluída, o status da base de conhecimento muda para o estado pronto ou disponível.

    Quando a base de conhecimento estiver pronta e disponível, sincronize a fonte de dados pela primeira vez e sempre que quiser manter o conteúdo atualizado. Selecione a base de conhecimento no console e escolha Sincronizar na seção de visão geral da fonte de dados.

API

Veja um exemplo de uma configuração para conexão ao Confluence Cloud da base de conhecimento do Amazon Bedrock. Você configura a fonte de dados usando a API com a AWS CLI ou o SDK compatível, como o Python. Depois de chamar CreateKnowledgeBase, você chama CreateDataSource para criar a fonte de dados com suas informações de conexão em dataSourceConfiguration. Lembre-se também de especificar a estratégia/abordagem de fragmentação em vectorIngestionConfiguration e a política de exclusão de dados em dataDeletionPolicy.

AWS Command Line Interface

aws bedrock create-data-source \ --name "Confluence Cloud/SaaS connector" \ --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://confluence-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' confluence-bedrock-connector-configuration.json { "confluenceConfiguration": { "sourceConfiguration": { "hostUrl": "https://example.atlassian.net", "hostType": "SAAS", "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "Attachment", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "CONFLUENCE" }