Funzionalità supportate Prerequisiti Istruzioni di connessione Ulteriori informazioni

Amazon Kendra Connettore Web Crawler v1.0

È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.

È possibile eseguire la scansione solo di siti Web pubblici e siti Web che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se si riceve un errore durante la crawling di un sito web, è possibile che il sito web non sia in grado di eseguire il crawling. Per eseguire il crawling dei siti web interni, è possibile configurare un proxy web. Il proxy web deve essere rivolto al pubblico.

Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che devi utilizzare Amazon Kendra Web Crawler solo per indicizzare le tue pagine Web o le pagine Web che hai l'autorizzazione a indicizzare. Per informazioni su come impedire a Amazon Kendra Web Crawler di indicizzare i tuoi siti Web, consulta. Configurazione del file per Web Crawler robots.txt Amazon Kendra

Nota

L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non sei proprietario non è considerato un uso accettabile.

Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati

Funzionalità supportate

Proxy web
Filtri di inclusione/esclusione

Prerequisiti

Prima di utilizzarlo Amazon Kendra per indicizzare i siti Web, controllate i dettagli dei siti Web e AWS degli account.

Per i tuoi siti Web, assicurati di disporre di:

Hai copiato la mappa iniziale o la mappa URLs del sito web che desideri indicizzare.
Per i siti Web che richiedono l'autenticazione di base: annota il nome utente e la password e copia il nome host del sito Web e il numero di porta.
Facoltativo: ha copiato il nome host del sito Web e il numero di porta se si desidera utilizzare un proxy Web per connettersi ai siti Web interni di cui si desidera eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.
Selezionato, ogni documento di pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDs I documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.
Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'ARN del IAM ruolo.

Nota
Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.
Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.

Nota
Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. e fornire solo il livello di accesso necessario per motivi di sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e tra le versioni 1.0 e 2.0 dei connettori (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti la tua origine web crawler dati a. Amazon Kendra Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra alla tua fonte di web crawler dati, devi fornire i dettagli necessari della tua origine web crawler dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non hai ancora configurato web crawler Amazon Kendra SeePrerequisiti.

Console

Per connettersi Amazon Kendra a web crawler

Accedi a AWS Management Console e apri la Amazon Kendra console.
Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

Nota
Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.
Nella pagina Guida introduttiva, scegli Aggiungi origine dati.
Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".
Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:
1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.
2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per l'origine dati.
3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.
4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS
5. Scegli Next (Successivo).
Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:
1. Per Source, scegli tra Source URLs e Source sitemap in base al tuo caso d'uso e inserisci i valori per ciascuna.
  
  Puoi aggiungere fino a 10 sitemap di origine URLs e tre sitemap.
  
  Nota
  Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, l'URL URLs elencato in questa pagina della mappa del sito deve utilizzare anche l'URL di base "». https://example.com/
2. (Facoltativo) Per il proxy Web, inserisci le seguenti informazioni:
  1. Nome host: il nome host in cui è richiesto il proxy Web.
  2. Numero di porta: la porta utilizzata dal protocollo di trasporto degli URL dell'host. Il numero di porta deve essere un valore numerico compreso tra 0 e 65535.
  3. Per le credenziali del proxy Web: se la connessione al proxy Web richiede l'autenticazione, scegli un segreto esistente o crea un nuovo segreto per archiviare le credenziali di autenticazione. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.
  4. Inserisci le seguenti informazioni nella finestra Crea un AWS Secrets Manager Secrets Manager segreto:
    1. Nome segreto: un nome per il segreto. Il prefisso 'AmazonKendra-WebCrawler-' viene aggiunto automaticamente al tuo nome segreto.
    2. Per nome utente e password: inserisci queste credenziali di autenticazione di base per i tuoi siti Web.
    3. Scegli Save (Salva).
3. (Facoltativo) Host con autenticazione: selezionare questa opzione per aggiungere altri host con autenticazione.
4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.
  
  Nota
  IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.
5. Scegli Next (Successivo).
Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:
1. Intervallo di scansione: scegli il tipo di pagine Web che desideri sottoporre a scansione.
2. Profondità di scansione: seleziona il numero di livelli dall'URL iniziale da sottoporre a scansione. Amazon Kendra
3. Le impostazioni di scansione avanzate e la configurazione aggiuntiva immettono le seguenti informazioni:
  1. Dimensione massima del file: la dimensione massima della pagina Web o degli allegati da sottoporre a scansione. Minimo 0,000001 MB (1 byte). Massimo 50 MB.
  2. Numero massimo di link per pagina: il numero massimo di link sottoposti a scansione per pagina. I link vengono sottoposti a crawling in ordine di apparizione. Minimo 1. link/page. Maximum 1000 links/page
  3. Limitazione massima: il numero massimo di URLs scansioni per nome host al minuto. Minimo 1. URLs/host name/minute. Maximum 300 URLs/host name/minute
  4. Modelli Regex: aggiungi modelli di espressioni regolari per includerne o escluderne alcuni. URLs È possibile aggiungere fino a 100 modelli.
4. In Sincronizza la pianificazione dell'esecuzione, per Frequenza, scegli la frequenza con cui eseguire la sincronizzazione con la tua fonte di dati. Amazon Kendra
5. Scegli Next (Successivo).
Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a web crawler

È necessario specificare quanto segue utilizzando l'WebCrawlerConfigurationAPI:

URLs—Specificate l'origine o il punto URLs di partenza dei siti Web o la mappa del sito URLs dei siti Web di cui desiderate eseguire la scansione utilizzando e. SeedUrlConfiguration SiteMapsConfiguration

Nota
Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della mappa del sito. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, l'URL URLs elencato in questa pagina della mappa del sito deve utilizzare anche l'URL di base "». https://example.com/
Secret Amazon Resource Name (ARN): se un sito Web richiede l'autenticazione di base, fornisci il nome host, il numero di porta e un codice segreto che memorizza le credenziali di autenticazione di base del nome utente e della password. L'ARN segreto viene fornito utilizzando l'AuthenticationConfigurationAPI. Il segreto viene archiviato in una struttura JSON con le seguenti chiavi:
```
{
    "username": "user name",
    "password": "password"
}
```
È inoltre possibile fornire le credenziali del proxy Web utilizzando un AWS Secrets Manager segreto. L'ProxyConfigurationAPI viene utilizzata per fornire il nome host e il numero di porta del sito Web e, facoltativamente, il codice segreto che memorizza le credenziali del proxy Web.
IAM role —Specificate RoleArn quando chiamate CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al vostro Secrets Manager segreto e per chiamare il pubblico richiesto APIs per il connettore del crawler web e. Amazon Kendra Per ulteriori informazioni, consulta IAM Ruoli per le fonti di dati del web crawler.

Puoi anche aggiungere le seguenti funzionalità opzionali:

Modalità di scansione: scegli se eseguire la scansione solo dei nomi host dei siti Web, dei nomi host con sottodomini o anche di altri domini a cui si collegano le pagine Web.
La «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.
Il numero massimo di pagine Web da URLs sottoporre a scansione su una singola pagina Web.
La dimensione massima in MB di una pagina Web da sottoporre a scansione.
Il numero massimo di URLs scansioni per host del sito web al minuto.
L'host del proxy Web e il numero di porta a cui connettersi e sottoporre a scansione i siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè "a.example.com" e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.
Le informazioni di autenticazione per accedere e scansionare i siti Web che richiedono l'autenticazione dell'utente.
È possibile estrarre i meta tag HTML come campi utilizzando lo strumento Custom Document Enrichment. Per ulteriori informazioni, consulta la sezione Personalizzazione dei metadati del documento durante il processo di importazione. Per un esempio di estrazione dei meta tag HTML, consulta Esempi CDE.
Filtri di inclusione ed esclusione: specifica se includerne o escluderne alcuni. URLs

Nota
La maggior parte delle origini dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.

Ulteriori informazioni

Per ulteriori informazioni sull'integrazione Amazon Kendra con la tua web crawler fonte di dati, consulta:

Reimmagina la scoperta delle conoscenze utilizzando Web Amazon Kendra Crawler

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Kendra Web crawler

Amazon Kendra Connettore Web Crawler v2.0