Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esplora le pagine Web per la tua knowledge base Amazon Bedrock
Il web crawler fornito da Amazon Bedrock si connette e esegue la scansione URLs che hai selezionato per l'utilizzo nella tua knowledge base di Amazon Bedrock. Puoi eseguire la scansione delle pagine del sito Web in base all'ambito o ai limiti impostati per le pagine selezionate. URLs Puoi eseguire la scansione delle pagine dei siti Web utilizzando la Console di AWS gestione per Amazon Bedrock
Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy
Il Web Crawler rispetta robots.txt in conformità con la RFC 9309
Esistono dei limiti al numero di elementi di contenuto della pagina Web e al numero di MB per elemento di contenuto che possono essere sottoposti a scansione. Vedi Quotas per le basi di conoscenza.
Funzionalità supportate
Il web crawler si connette alle pagine HTML ed esegue la scansione a partire dall'URL iniziale, attraversando tutti i link secondari all'interno dello stesso dominio e percorso principali. Se una delle pagine HTML fa riferimento a documenti supportati, il Web Crawler recupererà tali documenti, indipendentemente dal fatto che si trovino all'interno dello stesso dominio principale principale. È possibile modificare il comportamento di scansione modificando la configurazione della scansione: vedere. Configurazione della connessione
Quanto segue è supportato per:
-
Seleziona più fonti URLs da sottoporre a scansione e imposta l'ambito in modo che URLs esegua la scansione solo dell'host o includa anche i sottodomini.
-
Scansiona le pagine web statiche o dinamiche che fanno parte della tua fonte. URLs
-
Specificate il suffisso User Agent personalizzato per impostare le regole per il vostro crawler.
-
Includi o escludi alcuni URLs che corrispondono a un modello di filtro.
-
Rispetta le direttive robots.txt standard come «Allow» e «Disallow».
-
Limita l'ambito di scansione ed URLs escludi, facoltativamente, quelli che corrispondono URLs a un modello di filtro.
-
Limita la velocità di scansione URLs e il numero massimo di pagine da scansionare.
-
Visualizza lo stato del crawled in Amazon URLs CloudWatch
Prerequisiti
Per utilizzare il Web Crawler, assicurati di:.
-
Verifica di essere autorizzato a scansionare la tua fonte. URLs
-
Verifica che il percorso di robots.txt corrispondente alla tua fonte URLs non ne impedisca la URLs scansione. Il web crawler aderisce agli standard di robots.txt: per impostazione
disallow
predefinita se robots.txt non viene trovato per il sito web. Il Web Crawler rispetta robots.txt in conformità con la RFC 9309.È inoltre possibile specificare un suffisso di intestazione User Agent personalizzato per impostare le regole per il proprio crawler. Per ulteriori informazioni, consulta l'accesso agli URL del Web Crawler nelle istruzioni di questa pagina. Configurazione della connessione -
Abilita la consegna dei CloudWatch log e segui alcuni esempi di log del Web Crawler per visualizzare lo stato del processo di inserimento dei dati per l'acquisizione di contenuti Web e, se alcuni dati non possono essere recuperati. URLs
Nota
Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy
Configurazione della connessione
Per ulteriori informazioni sull'ambito di sincronizzazione per la scansione URLs, i filtri di inclusione/esclusione, l'accesso agli URL, la sincronizzazione incrementale e su come funzionano, seleziona quanto segue:
Puoi limitare l'ambito della scansione in base URLs alla relazione specifica tra l'URL di ogni pagina e il seme. URLs Per scansioni più rapide, puoi limitarti URLs a quelle con lo stesso host e lo stesso percorso URL iniziale dell'URL iniziale. Per indicizzazioni più ampie, puoi scegliere di eseguire la scansione URLs con lo stesso host o all'interno di qualsiasi sottodominio dell'URL iniziale.
Puoi scegliere tra le opzioni riportate di seguito.
-
Impostazione predefinita: limita la scansione alle pagine Web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", verranno sottoposti a scansione solo questo percorso e le pagine Web che si estendono da questo percorso, come "agents/». https://aws.amazon.com/bedrock/ I fratelli URLs come "https://aws.amazon.com/ec2/" non vengono sottoposti a scansione, ad esempio.
-
Solo host: limita la scansione alle pagine Web che appartengono allo stesso host. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/«, verranno scansionate anche le pagine web conhttps://aws.amazon.com" ", come" /ec2». https://aws.amazon.com
-
Sottodomini: include la scansione di qualsiasi pagina Web con lo stesso dominio principale dell'URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", qualsiasi pagina web che contiene «amazon.com» (sottodominio) verrà sottoposta a scansione, come "». https://www.amazon.com
Nota
Assicurati di non eseguire la scansione di pagine web potenzialmente eccessive. Non è consigliabile eseguire la scansione di siti Web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. La scansione di siti Web di grandi dimensioni richiederà molto tempo.
I tipi di file supportati vengono sottoposti a scansione indipendentemente dall'ambito e se non esiste uno schema di esclusione per il tipo di file.
Il Web Crawler supporta siti Web statici e dinamici.
Puoi anche limitare la velocità di scansione URLs per controllare la limitazione della velocità di scansione. È stato impostato il numero massimo di scansioni per host al minuto URLs . Inoltre, puoi anche impostare il numero massimo (fino a 25.000) di pagine Web totali da sottoporre a scansione. Tieni presente che se il numero totale di pagine Web dell'origine URLs supera il numero massimo impostato, il processo di sincronizzazione/inserimento dell'origine dati avrà esito negativo.
È possibile includerne o escluderne alcuni URLs in base al proprio ambito. I tipi di file supportati vengono sottoposti a scansione indipendentemente dall'ambito e se non esiste uno schema di esclusione per il tipo di file. Se specifichi un filtro di inclusione ed esclusione ed entrambi corrispondono a un URL, il filtro di esclusione ha la precedenza e il contenuto web non viene sottoposto a scansione.
Importante
I filtri con pattern di espressioni regolari problematici che portano a un backtracking catastrofico e a uno sguardo al futuro vengono respinti.
Un esempio di modello di filtro per espressioni regolari per escludere URLs che termina con allegati di pagine Web «.pdf» o PDF: «.*\ .pdf$»
È possibile utilizzare il Web Crawler per eseguire la scansione delle pagine dei siti Web per i quali si è autorizzati a eseguire la scansione.
Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy
Il Web Crawler rispetta robots.txt in conformità con la RFC 9309
È possibile specificare determinati bot dell'agente utente in modo che «consentano» o «impediscano» all'agente utente di eseguire la scansione del codice sorgente. URLs Puoi modificare il file robots.txt del tuo sito Web per controllare il modo in cui il Web Crawler esegue la scansione del codice sorgente. URLs Il crawler cercherà prima bedrockbot-UUID
le regole e poi le regole generiche bedrockbot
nel file robots.txt.
Puoi anche aggiungere un suffisso User-Agent che può essere usato per inserire il crawler nella lista consentita nei sistemi di protezione dai bot. Tieni presente che non è necessario aggiungere questo suffisso al file robots.txt per assicurarsi che nessuno possa impersonare la stringa User Agent. Ad esempio, per consentire al Web Crawler di eseguire la scansione di tutto il contenuto del sito Web e impedire la scansione per altri robot, utilizzate la seguente direttiva:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Ogni volta che viene eseguito, il Web Crawler recupera i contenuti per tutto ciò URLs che è raggiungibile dall'origine URLs e che corrisponde all'ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima sincronizzazione di tutti i contenuti, Amazon Bedrock aggiornerà la tua knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti che non sono più presenti. A volte, il crawler potrebbe non essere in grado di stabilire se il contenuto è stato rimosso dal sito Web; in questo caso, potrebbe non conservare i vecchi contenuti nella tua knowledge base.
Per sincronizzare la tua fonte di dati con la tua knowledge base, utilizza l'StartIngestionJobAPI o seleziona la knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle fonti di dati.
Importante
Tutti i dati che sincronizzi dalla tua fonte di dati diventano disponibili per chiunque disponga bedrock:Retrieve
delle autorizzazioni per recuperare i dati. Ciò può includere anche tutti i dati con autorizzazioni controllate per l'origine dei dati. Per ulteriori informazioni, consulta Autorizzazioni della Knowledge Base.