Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Amazon Kendra Connettore Web Crawler v1.0 - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon Kendra Connettore Web Crawler v1.0

È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.

È possibile eseguire la scansione solo di siti Web pubblici e siti Web che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico.

Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che devi utilizzare Amazon Kendra Web Crawler solo per indicizzare le tue pagine Web o le pagine Web che hai l'autorizzazione a indicizzare. Per informazioni su come impedire a Amazon Kendra Web Crawler di indicizzare i tuoi siti Web, consulta. Configurazione del file per Web Crawler robots.txtAmazon Kendra

Nota

L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non sei proprietario non è considerato un uso accettabile.

Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati

Funzionalità supportate

  • Proxy Web

  • Filtri di inclusione/esclusione

Prerequisiti

Prima di utilizzarli Amazon Kendra per indicizzare i tuoi siti web, controlla i dettagli dei tuoi siti web e dei tuoi account. AWS

Per i tuoi siti web, assicurati di avere:

  • Hai copiato la mappa iniziale o la mappa URLs del sito web che desideri indicizzare.

  • Per i siti Web che richiedono l'autenticazione di base: annota il nome utente e la password e copia il nome host del sito Web e il numero di porta.

  • Facoltativo: ha copiato il nome host del sito Web e il numero di porta se si desidera utilizzare un proxy Web per connettersi ai siti Web interni di cui si desidera eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.

  • Selezionato, ogni documento di pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDs I documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

  • Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.

  • Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'ARN del IAM ruolo.

    Nota

    Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.

  • Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.

    Nota

    Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e nelle versioni 1.0 e 2.0 dei connettori (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti il web crawler fonte di dati a Amazon Kendra. Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra al tuo web crawler fonte di dati, è necessario fornire i dettagli necessari del web crawler fonte di dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non l'hai ancora configurato web crawler per Amazon Kendra vederePrerequisiti.

Console

Per connettersi Amazon Kendra a web crawler

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Scegli Next (Successivo).

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:

    1. Per Source, scegli tra Source URLs e Source sitemap in base al tuo caso d'uso e inserisci i valori per ciascuna.

      Puoi aggiungere fino a 10 sitemap di origine URLs e tre sitemap.

      Nota

      Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".

    2. (Facoltativo) Per il proxy Web: inserisci le seguenti informazioni:

      1. Nome host: il nome host in cui è richiesto il proxy Web.

      2. Numero di porta: la porta utilizzata dal protocollo di trasporto degli URL dell'host. Il numero di porta deve essere un valore numerico compreso tra 0 e 65535.

      3. Per le credenziali del proxy Web: se la connessione al proxy Web richiede l'autenticazione, scegli un segreto esistente o crea un nuovo segreto per archiviare le credenziali di autenticazione. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.

      4. Inserisci le seguenti informazioni nella finestra Crea un AWS Secrets Manager Secrets Manager segreto:

        1. Nome segreto: un nome per il tuo segreto. Il prefisso 'AmazonKendra-WebCrawler-'viene aggiunto automaticamente al tuo nome segreto.

        2. Per nome utente e password: inserisci queste credenziali di autenticazione di base per i tuoi siti Web.

        3. Seleziona Salva.

    3. (Facoltativo) Host con autenticazione: selezionare per aggiungere altri host con autenticazione.

    4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.

    5. Scegli Next (Successivo).

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Intervallo di scansione: scegli il tipo di pagine Web che desideri scansionare.

    2. Profondità di scansione: seleziona il numero di livelli dall'URL iniziale da sottoporre a scansione. Amazon Kendra

    3. Le impostazioni di scansione avanzate e la configurazione aggiuntiva immettono le seguenti informazioni:

      1. Dimensione massima del file: la dimensione massima della pagina Web o degli allegati da sottoporre a scansione. Minimo 0,000001 MB (1 byte). Massimo 50 MB.

      2. Numero massimo di link per pagina: il numero massimo di link sottoposti a scansione per pagina. I link vengono sottoposti a scansione in ordine di apparizione. Minimo 1. link/page. Maximum 1000 links/page

      3. Limitazione massima: il numero massimo di URLs scansioni per nome host al minuto. URLsname/minute. Maximum 300 URLs/host name/minuteMinimo 1 per host.

      4. Modelli Regex: aggiungi modelli di espressioni regolari per includerne o escluderne alcuni. URLs È possibile aggiungere fino a 100 pattern.

    4. In Pianificazione di esecuzione della sincronizzazione, per Frequenza: scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra

    5. Scegli Next (Successivo).

  8. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a web crawler

È necessario specificare quanto segue utilizzando l'WebCrawlerConfigurationAPI:

  • URLs—Specificate l'origine o il punto URLs di partenza dei siti Web o la mappa del sito URLs dei siti Web che desiderate utilizzare per la scansione SeedUrlConfiguration e SiteMapsConfiguration.

    Nota

    Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della mappa del sito. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".

  • Secret Amazon Resource Name (ARN): se un sito Web richiede l'autenticazione di base, fornisci il nome host, il numero di porta e un codice segreto che memorizza le credenziali di autenticazione di base del nome utente e della password. Fornisci l'ARN segreto utilizzando il AuthenticationConfigurationAPI. Il segreto è archiviato in una struttura JSON con le seguenti chiavi:

    { "username": "user name", "password": "password" }

    È inoltre possibile fornire le credenziali del proxy Web utilizzando un AWS Secrets Manager segreto. Si utilizza il ProxyConfigurationAPI per fornire il nome host e il numero di porta del sito Web e, facoltativamente, il segreto che memorizza le credenziali del proxy Web.

  • IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al tuo account Secrets Manager segreto e per chiamare il pubblico richiesto APIs per il connettore del crawler Web e. Amazon Kendra Per ulteriori informazioni, consulta IAM Ruoli per le fonti di dati del web crawler.

Puoi anche aggiungere le seguenti funzionalità opzionali:

  • Modalità di scansione: scegli se eseguire la scansione solo dei nomi host dei siti Web, dei nomi host con sottodomini o anche di altri domini a cui si collegano le pagine Web.

  • La «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.

  • Il numero massimo di pagine Web da URLs sottoporre a scansione su una singola pagina Web.

  • La dimensione massima in MB di una pagina Web da sottoporre a scansione.

  • Il numero massimo di URLs scansioni per host del sito web al minuto.

  • L'host del proxy Web e il numero di porta a cui connettersi e sottoporre a scansione i siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè»a.example.com"e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.

  • Le informazioni di autenticazione per accedere e scansionare i siti Web che richiedono l'autenticazione dell'utente.

  • È possibile estrarre i meta tag HTML come campi utilizzando lo strumento Custom Document Enrichment. Per ulteriori informazioni, consulta la sezione Personalizzazione dei metadati del documento durante il processo di importazione. Per un esempio di estrazione dei meta tag HTML, consulta Esempi CDE.

  • Filtri di inclusione ed esclusione: specifica se includerne o escluderne alcuni. URLs

    Nota

    La maggior parte delle fonti di dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.

Per connettersi Amazon Kendra a web crawler

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Scegli Next (Successivo).

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:

    1. Per Source, scegli tra Source URLs e Source sitemap in base al tuo caso d'uso e inserisci i valori per ciascuna.

      Puoi aggiungere fino a 10 sitemap di origine URLs e tre sitemap.

      Nota

      Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".

    2. (Facoltativo) Per il proxy Web: inserisci le seguenti informazioni:

      1. Nome host: il nome host in cui è richiesto il proxy Web.

      2. Numero di porta: la porta utilizzata dal protocollo di trasporto degli URL dell'host. Il numero di porta deve essere un valore numerico compreso tra 0 e 65535.

      3. Per le credenziali del proxy Web: se la connessione al proxy Web richiede l'autenticazione, scegli un segreto esistente o crea un nuovo segreto per archiviare le credenziali di autenticazione. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.

      4. Inserisci le seguenti informazioni nella finestra Crea un AWS Secrets Manager Secrets Manager segreto:

        1. Nome segreto: un nome per il tuo segreto. Il prefisso 'AmazonKendra-WebCrawler-'viene aggiunto automaticamente al tuo nome segreto.

        2. Per nome utente e password: inserisci queste credenziali di autenticazione di base per i tuoi siti Web.

        3. Seleziona Salva.

    3. (Facoltativo) Host con autenticazione: selezionare per aggiungere altri host con autenticazione.

    4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.

    5. Scegli Next (Successivo).

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Intervallo di scansione: scegli il tipo di pagine Web che desideri scansionare.

    2. Profondità di scansione: seleziona il numero di livelli dall'URL iniziale da sottoporre a scansione. Amazon Kendra

    3. Le impostazioni di scansione avanzate e la configurazione aggiuntiva immettono le seguenti informazioni:

      1. Dimensione massima del file: la dimensione massima della pagina Web o degli allegati da sottoporre a scansione. Minimo 0,000001 MB (1 byte). Massimo 50 MB.

      2. Numero massimo di link per pagina: il numero massimo di link sottoposti a scansione per pagina. I link vengono sottoposti a scansione in ordine di apparizione. Minimo 1. link/page. Maximum 1000 links/page

      3. Limitazione massima: il numero massimo di URLs scansioni per nome host al minuto. URLsname/minute. Maximum 300 URLs/host name/minuteMinimo 1 per host.

      4. Modelli Regex: aggiungi modelli di espressioni regolari per includerne o escluderne alcuni. URLs È possibile aggiungere fino a 100 pattern.

    4. In Pianificazione di esecuzione della sincronizzazione, per Frequenza: scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra

    5. Scegli Next (Successivo).

  8. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

Ulteriori informazioni

Per saperne di più sull'integrazione con Amazon Kendra web crawler fonte di dati, vedi:

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.