Rastreie páginas da web para sua base de conhecimento - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rastreie páginas da web para sua base de conhecimento

O Web Crawler fornecido pelo Amazon Bedrock se conecta e rastreia URLs você selecionou para uso em sua base de conhecimento do Amazon Bedrock. Você pode rastrear as páginas do site de acordo com o escopo ou os limites definidos para as páginas selecionadas. URLs Você pode rastrear páginas do site usando o console de AWS gerenciamento do Amazon Bedrock ou a CreateDataSourceAPI (consulte Amazon Bedrock suportado e). SDKs AWS CLI

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para rastrear e que respeite as configurações do robots.txt.

O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309

Há limites para quantos itens de conteúdo de página da web e MB por item de conteúdo podem ser rastreados. Consulte Quotas for knowledge bases.

Recursos compatíveis

O crawler da web se conecta e rastreia páginas HTML pelo URL inicial, percorrendo todos os links secundários no mesmo caminho e domínio principal. Se alguma das páginas HTML fizer referência a documentos compatíveis, o crawler da web buscará esses documentos, independentemente de estarem no mesmo domínio principal. Você pode modificar o comportamento de crawling alterando a configuração: consulte Configuração de conexão.

Há suporte para você:

  • Selecione várias fontes URLs para rastrear e defina o escopo de URLs rastrear somente o host ou também incluir subdomínios.

  • Rastreie páginas da web estáticas ou dinâmicas que fazem parte da sua fonte. URLs

  • Especifique o sufixo personalizado do Agente de Usuário para definir regras para seu próprio rastreador.

  • Inclua ou exclua alguns URLs que correspondam a um padrão de filtro.

  • Respeite as diretivas padrão de robots.txt, como “Permitir” e “Não permitir”.

  • Limite o escopo do URLs para rastrear e, opcionalmente, exclua aqueles URLs que correspondam a um padrão de filtro.

  • Limite a taxa de rastreamento URLs e o número máximo de páginas a serem rastreadas.

  • Veja o status de rastreado URLs na Amazon CloudWatch

Pré-requisitos

Para usar o crawler da web, não se esqueça de:

  • Verifique se você está autorizado a rastrear sua fonte. URLs

  • Verifique se o caminho para robots.txt correspondente à sua fonte URLs não impede que ele seja rastreado. URLs O crawler da web segue os padrões de robots.txt: disallow por padrão se robots.txt não for encontrado para o site. O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309. Você também pode especificar um sufixo de cabeçalho personalizado do Agente de Usuário para definir regras para seu próprio rastreador. Para obter mais informações, consulte Acesso ao URL do Web Crawler nas Configuração de conexão instruções desta página.

  • Ative a entrega de CloudWatch registros e siga exemplos de registros do Web Crawler para ver o status do seu trabalho de ingestão de dados para ingestão de conteúdo da web e, se determinado URLs , não puder ser recuperado.

nota

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Você só pode usar o crawler da web para indexar seus sites ou os sites que você tenha autorização para crawling.

Configuração de conexão

Para obter mais informações sobre o escopo de sincronização para rastreamento URLs, filtros de inclusão/exclusão, acesso à URL, sincronização incremental e como eles funcionam, selecione o seguinte:

Você pode limitar o escopo do URLs rastreamento com base na relação específica de cada URL da página com a semente. URLs Para rastreamentos mais rápidos, você pode URLs limitar aqueles com o mesmo host e caminho de URL inicial do URL inicial. Para rastreamentos mais amplos, você pode optar por rastrear URLs com o mesmo host ou em qualquer subdomínio do URL inicial.

Você pode escolher entre as opções a seguir.

  • Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", somente esse caminho e as páginas da Web que se estendem a partir desse caminho serão rastreados, como "https://aws.amazon.com/bedrock/agents/”. Irmãos URLs como "https://aws.amazon.com/ec2/" não são rastreados, por exemplo.

  • Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/“, as páginas da web com" https://aws.amazon.com "também serão rastreadas, como" https://aws.amazon.com /ec2”.

  • Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como "”. https://www.amazon.com

nota

Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.

Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.

O Web Crawler suporta sites estáticos e dinâmicos.

Você também pode limitar a taxa de rastreamento URLs para controlar a redução da velocidade de rastreamento. Você define o número máximo de URLs rastreados por host por minuto. Além disso, você também pode definir o número máximo (até 25.000) do total de páginas da Web a serem rastreadas. Observe que, se o número total de páginas da Web da sua fonte URLs exceder o máximo definido, o trabalho de sincronização/ingestão da fonte de dados falhará.

Você pode incluir ou excluir alguns URLs de acordo com seu escopo. Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo. Se você especificar um filtro de inclusão e de exclusão e ambos corresponderem a um URL, o filtro de exclusão terá precedência e não será feito crawling do conteúdo da web.

Importante

Filtros problemáticos de padrões de expressão regular que causam retrocesso catastrófico e lookahead são rejeitados.

Um exemplo de um padrão de filtro de expressão regular para excluir URLs aquela extremidade com “.pdf” ou anexos de páginas da Web em PDF: “.*\ .pdf$

Você pode usar o crawler da web para rastrear as páginas dos sites que você tem autorização para rastrear.

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Você só pode usar o crawler da web para indexar seus sites ou os sites que você tenha autorização para crawling.

O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309

Você pode especificar determinados bots de agente de usuário para “Permitir” ou “Proibir” que o agente de usuário rastreie sua fonte. URLs Você pode modificar o arquivo robots.txt do seu site para controlar como o Web Crawler rastreia sua fonte. URLs O rastreador procurará primeiro bedrockbot-UUID as regras e depois as bedrockbot regras genéricas no arquivo robots.txt.

Você também pode adicionar um sufixo User-Agent que pode ser usado para permitir seu rastreador em sistemas de proteção de bots. Observe que esse sufixo não precisa ser adicionado ao robots.txt arquivo para garantir que ninguém possa representar a string do Agente do Usuário. Por exemplo, para permitir que o Web Crawler rastreie todo o conteúdo do site e proibir o rastreamento de outros robôs, use a seguinte diretiva:

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Cada vez que o Web Crawler é executado, ele recupera o conteúdo de tudo o URLs que é acessível a partir da fonte URLs e que corresponde ao escopo e aos filtros. Para sincronizações incrementais após a primeira sincronização de todo o conteúdo, o Amazon Bedrock atualizará sua base de conhecimento com conteúdo novo e modificado e removerá o conteúdo antigo que não está mais presente. Às vezes, o crawler poderá não conseguir indicar se o conteúdo foi removido do site e, nesse caso, ele vai deixar de preservar o conteúdo antigo em sua base de conhecimento.

Para sincronizar sua fonte de dados com sua base de conhecimento, use a StartIngestionJobAPI ou selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.

Importante

Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões bedrock:Retrieve para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Knowledge base permissions.

Console
Conecte uma fonte de dados do Web Crawler à sua base de conhecimento
  1. Siga as etapas em Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento Amazon Bedrock e escolha Web Crawler como fonte de dados.

  2. Forneça um nome e uma descrição opcional para a fonte de dados.

  3. Forneça a fonte URLs do que URLs você deseja rastrear. Você pode adicionar até 9 adicionais URLs selecionando Adicionar fonte URLs. Ao fornecer um URL de origem, você confirma que tem autorização para fazer crawling de seu domínio.

  4. Na seção Configurações avançadas, você pode, opcionalmente, configurar o seguinte:

    • Chave KMS para armazenamento transitório de dados. — Você pode criptografar os dados transitórios enquanto converte seus dados em incorporações com a chave padrão Chave gerenciada pela AWS ou sua própria chave KMS. Para obter mais informações, consulte Criptografia de armazenamento de dados temporário durante a ingestão de dados.

    • Política de exclusão de dados — Você pode excluir as incorporações vetoriais da sua fonte de dados que estão armazenadas no armazenamento vetorial por padrão ou optar por reter os dados do armazenamento vetorial.

  5. (Opcional) Forneça um sufixo de agente de usuário para o Bedrock-uuid- que identifique o rastreador ou o bot quando ele acessa um servidor web.

  6. Configure o seguinte na seção Escopo de sincronização:

    1. Selecione um intervalo de domínio do site para rastrear sua fonte: URLs

      • Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", somente esse caminho e as páginas da Web que se estendem a partir desse caminho serão rastreados, como "https://aws.amazon.com/bedrock/agents/”. Irmãos URLs como "https://aws.amazon.com/ec2/" não são rastreados, por exemplo.

      • Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/“, as páginas da web com" https://aws.amazon.com "também serão rastreadas, como" https://aws.amazon.com /ec2”.

      • Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como "”. https://www.amazon.com

      nota

      Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.

      Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.

    2. Insira Controle de utilização máximo da velocidade de crawling. Ingira URLs entre 1 e 300 URLs por host por minuto. Uma velocidade de crawling maior aumenta a carga, mas leva menos tempo.

    3. Insira o máximo de páginas para sincronização da fonte de dados entre 1 e 25.000. Limite o número máximo de páginas da web rastreadas da sua fonte. URLs Se as páginas da Web excederem esse número, a sincronização da fonte de dados falhará e nenhuma página da Web será ingerida.

    4. Para padrões de URL regex (opcional), você pode adicionar Padrões de inclusão ou Padrões de exclusão inserindo o padrão de expressão regular na caixa. Você pode adicionar até 25 padrões de filtro de inclusão e 25 de exclusão selecionando Adicionar novo padrão. O crawling dos padrões de inclusão e exclusão é feito de acordo com seu escopo. Se houver um conflito, o padrão de exclusão terá precedência.

  7. (Opcional) Na seção Análise e fragmentação de conteúdo, você pode personalizar como analisar e fragmentar seus dados. Consulte os seguintes recursos para saber mais sobre essas personalizações:

  8. Continue escolhendo um modelo de incorporação e um armazenamento vetorial. Para ver as etapas restantes, retorne Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento Amazon Bedrock e continue a partir da etapa após conectar sua fonte de dados.

API

Para conectar uma base de conhecimento a uma fonte de dados usando WebCrawler, envie uma CreateDataSourcesolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock, especifique WEB no type campo do e inclua o DataSourceConfigurationcampo. webConfiguration Este é um exemplo de uma configuração do crawler da web para a base de conhecimento do Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Para saber mais sobre personalizações que você pode aplicar à ingestão incluindo o vectorIngestionConfiguration campo opcional, consulte. Personalizar a ingestão de uma fonte de dados