As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Rastreie páginas da web para sua base de conhecimento
O Web Crawler fornecido pelo Amazon Bedrock se conecta e rastreia URLs você selecionou para uso em sua base de conhecimento do Amazon Bedrock. Você pode rastrear as páginas do site de acordo com o escopo ou os limites definidos para as páginas selecionadas. URLs Você pode rastrear páginas do site usando o console de AWS gerenciamento do Amazon Bedrock
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309
Há limites para quantos itens de conteúdo de página da web e MB por item de conteúdo podem ser rastreados. Consulte Quotas for knowledge bases.
Recursos compatíveis
O crawler da web se conecta e rastreia páginas HTML pelo URL inicial, percorrendo todos os links secundários no mesmo caminho e domínio principal. Se alguma das páginas HTML fizer referência a documentos compatíveis, o crawler da web buscará esses documentos, independentemente de estarem no mesmo domínio principal. Você pode modificar o comportamento de crawling alterando a configuração: consulte Configuração de conexão.
Há suporte para você:
-
Selecione várias fontes URLs para rastrear e defina o escopo de URLs rastrear somente o host ou também incluir subdomínios.
-
Rastreie páginas da web estáticas ou dinâmicas que fazem parte da sua fonte. URLs
-
Especifique o sufixo personalizado do Agente de Usuário para definir regras para seu próprio rastreador.
-
Inclua ou exclua alguns URLs que correspondam a um padrão de filtro.
-
Respeite as diretivas padrão de robots.txt, como “Permitir” e “Não permitir”.
-
Limite o escopo do URLs para rastrear e, opcionalmente, exclua aqueles URLs que correspondam a um padrão de filtro.
-
Limite a taxa de rastreamento URLs e o número máximo de páginas a serem rastreadas.
-
Veja o status de rastreado URLs na Amazon CloudWatch
Pré-requisitos
Para usar o crawler da web, não se esqueça de:
-
Verifique se você está autorizado a rastrear sua fonte. URLs
-
Verifique se o caminho para robots.txt correspondente à sua fonte URLs não impede que ele seja rastreado. URLs O crawler da web segue os padrões de robots.txt:
disallow
por padrão se robots.txt não for encontrado para o site. O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309. Você também pode especificar um sufixo de cabeçalho personalizado do Agente de Usuário para definir regras para seu próprio rastreador. Para obter mais informações, consulte Acesso ao URL do Web Crawler nas Configuração de conexão instruções desta página. -
Ative a entrega de CloudWatch registros e siga exemplos de registros do Web Crawler para ver o status do seu trabalho de ingestão de dados para ingestão de conteúdo da web e, se determinado URLs , não puder ser recuperado.
nota
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
Configuração de conexão
Para obter mais informações sobre o escopo de sincronização para rastreamento URLs, filtros de inclusão/exclusão, acesso à URL, sincronização incremental e como eles funcionam, selecione o seguinte:
Você pode limitar o escopo do URLs rastreamento com base na relação específica de cada URL da página com a semente. URLs Para rastreamentos mais rápidos, você pode URLs limitar aqueles com o mesmo host e caminho de URL inicial do URL inicial. Para rastreamentos mais amplos, você pode optar por rastrear URLs com o mesmo host ou em qualquer subdomínio do URL inicial.
Você pode escolher entre as opções a seguir.
-
Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", somente esse caminho e as páginas da Web que se estendem a partir desse caminho serão rastreados, como "https://aws.amazon.com/bedrock/agents/”. Irmãos URLs como "https://aws.amazon.com/ec2/" não são rastreados, por exemplo.
-
Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/“, as páginas da web com" https://aws.amazon.com "também serão rastreadas, como" https://aws.amazon.com /ec2”.
-
Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial de "https://aws.amazon.com/bedrock/", qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como "”. https://www.amazon.com
nota
Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.
Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.
O Web Crawler suporta sites estáticos e dinâmicos.
Você também pode limitar a taxa de rastreamento URLs para controlar a redução da velocidade de rastreamento. Você define o número máximo de URLs rastreados por host por minuto. Além disso, você também pode definir o número máximo (até 25.000) do total de páginas da Web a serem rastreadas. Observe que, se o número total de páginas da Web da sua fonte URLs exceder o máximo definido, o trabalho de sincronização/ingestão da fonte de dados falhará.
Você pode incluir ou excluir alguns URLs de acordo com seu escopo. Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo. Se você especificar um filtro de inclusão e de exclusão e ambos corresponderem a um URL, o filtro de exclusão terá precedência e não será feito crawling do conteúdo da web.
Importante
Filtros problemáticos de padrões de expressão regular que causam retrocesso catastrófico e lookahead são rejeitados.
Um exemplo de um padrão de filtro de expressão regular para excluir URLs aquela extremidade com “.pdf” ou anexos de páginas da Web em PDF: “.*\ .pdf$”
Você pode usar o crawler da web para rastrear as páginas dos sites que você tem autorização para rastrear.
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309
Você pode especificar determinados bots de agente de usuário para “Permitir” ou “Proibir” que o agente de usuário rastreie sua fonte. URLs Você pode modificar o arquivo robots.txt do seu site para controlar como o Web Crawler rastreia sua fonte. URLs O rastreador procurará primeiro bedrockbot-UUID
as regras e depois as bedrockbot
regras genéricas no arquivo robots.txt.
Você também pode adicionar um sufixo User-Agent que pode ser usado para permitir seu rastreador em sistemas de proteção de bots. Observe que esse sufixo não precisa ser adicionado ao robots.txt
arquivo para garantir que ninguém possa representar a string do Agente do Usuário. Por exemplo, para permitir que o Web Crawler rastreie todo o conteúdo do site e proibir o rastreamento de outros robôs, use a seguinte diretiva:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Cada vez que o Web Crawler é executado, ele recupera o conteúdo de tudo o URLs que é acessível a partir da fonte URLs e que corresponde ao escopo e aos filtros. Para sincronizações incrementais após a primeira sincronização de todo o conteúdo, o Amazon Bedrock atualizará sua base de conhecimento com conteúdo novo e modificado e removerá o conteúdo antigo que não está mais presente. Às vezes, o crawler poderá não conseguir indicar se o conteúdo foi removido do site e, nesse caso, ele vai deixar de preservar o conteúdo antigo em sua base de conhecimento.
Para sincronizar sua fonte de dados com sua base de conhecimento, use a StartIngestionJobAPI ou selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.
Importante
Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões bedrock:Retrieve
para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Knowledge base permissions.