Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon Kendra Connettore Web Crawler v1.0
È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.
È possibile eseguire la scansione solo di siti Web pubblici e siti Web che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico.
Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon
Nota
L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non sei proprietario non è considerato un uso accettabile.
Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati
Funzionalità supportate
-
Proxy Web
-
Filtri di inclusione/esclusione
Prerequisiti
Prima di utilizzarli Amazon Kendra per indicizzare i tuoi siti web, controlla i dettagli dei tuoi siti web e dei tuoi account. AWS
Per i tuoi siti web, assicurati di avere:
-
Hai copiato la mappa iniziale o la mappa URLs del sito web che desideri indicizzare.
-
Per i siti Web che richiedono l'autenticazione di base: annota il nome utente e la password e copia il nome host del sito Web e il numero di porta.
-
Facoltativo: ha copiato il nome host del sito Web e il numero di porta se si desidera utilizzare un proxy Web per connettersi ai siti Web interni di cui si desidera eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.
-
Selezionato, ogni documento di pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDs I documenti sono globali rispetto a un indice e devono essere univoci per indice.
Nel tuo AWS account, assicurati di avere:
-
Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.
-
Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'ARN del IAM ruolo.
Nota
Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.
-
Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.
Nota
Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e nelle versioni 1.0 e 2.0 dei connettori (ove applicabile).
Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti il web crawler fonte di dati a Amazon Kendra. Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.
Istruzioni di connessione
Per connetterti Amazon Kendra al tuo web crawler fonte di dati, è necessario fornire i dettagli necessari del web crawler fonte di dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non l'hai ancora configurato web crawler per Amazon Kendra vederePrerequisiti.
Per connettersi Amazon Kendra a web crawler
-
Accedi a AWS Management Console e apri la Amazon Kendra console
. -
Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.
Nota
Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.
-
Nella pagina Guida introduttiva, scegli Aggiungi origine dati.
-
Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".
-
Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:
-
In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.
-
(Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.
-
In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.
-
In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS
-
Scegli Next (Successivo).
-
-
Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:
-
Per Source, scegli tra Source URLs e Source sitemap in base al tuo caso d'uso e inserisci i valori per ciascuna.
Puoi aggiungere fino a 10 sitemap di origine URLs e tre sitemap.
Nota
Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".
-
(Facoltativo) Per il proxy Web: inserisci le seguenti informazioni:
-
Nome host: il nome host in cui è richiesto il proxy Web.
-
Numero di porta: la porta utilizzata dal protocollo di trasporto degli URL dell'host. Il numero di porta deve essere un valore numerico compreso tra 0 e 65535.
-
Per le credenziali del proxy Web: se la connessione al proxy Web richiede l'autenticazione, scegli un segreto esistente o crea un nuovo segreto per archiviare le credenziali di autenticazione. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.
-
Inserisci le seguenti informazioni nella finestra Crea un AWS Secrets Manager Secrets Manager segreto:
-
Nome segreto: un nome per il tuo segreto. Il prefisso 'AmazonKendra-WebCrawler-'viene aggiunto automaticamente al tuo nome segreto.
-
Per nome utente e password: inserisci queste credenziali di autenticazione di base per i tuoi siti Web.
-
Seleziona Salva.
-
-
-
(Facoltativo) Host con autenticazione: selezionare per aggiungere altri host con autenticazione.
-
IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.
Nota
IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.
-
Scegli Next (Successivo).
-
-
Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:
-
Intervallo di scansione: scegli il tipo di pagine Web che desideri scansionare.
-
Profondità di scansione: seleziona il numero di livelli dall'URL iniziale da sottoporre a scansione. Amazon Kendra
-
Le impostazioni di scansione avanzate e la configurazione aggiuntiva immettono le seguenti informazioni:
-
Dimensione massima del file: la dimensione massima della pagina Web o degli allegati da sottoporre a scansione. Minimo 0,000001 MB (1 byte). Massimo 50 MB.
-
Numero massimo di link per pagina: il numero massimo di link sottoposti a scansione per pagina. I link vengono sottoposti a scansione in ordine di apparizione. Minimo 1. link/page. Maximum 1000 links/page
-
Limitazione massima: il numero massimo di URLs scansioni per nome host al minuto. URLsname/minute. Maximum 300 URLs/host name/minuteMinimo 1 per host.
-
Modelli Regex: aggiungi modelli di espressioni regolari per includerne o escluderne alcuni. URLs È possibile aggiungere fino a 100 pattern.
-
-
In Pianificazione di esecuzione della sincronizzazione, per Frequenza: scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra
-
Scegli Next (Successivo).
-
-
Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.
Ulteriori informazioni
Per saperne di più sull'integrazione con Amazon Kendra web crawler fonte di dati, vedi: