Connect ad Amazon S3 per accedere alla knowledge base di Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connect ad Amazon S3 per accedere alla knowledge base di Amazon Bedrock

Amazon S3 è un servizio che consente di archiviare dati come oggetti nei bucket. Puoi connetterti al tuo bucket Amazon S3 per la tua knowledge base Amazon Bedrock utilizzando uno dei seguenti AWS Console di gestione per Amazon Bedrock o CreateDataSourceAPI(vedi Amazon Bedrock) supportato e SDKs AWS CLI).

Puoi caricare un piccolo batch di file su un bucket Amazon S3 utilizzando la console Amazon S3 oppure. API In alternativa puoi usare AWS DataSyncper caricare più file su S3 in modo continuo e trasferire file secondo una pianificazione da locale, edge, altro cloud o AWS archiviazione.

Attualmente sono supportati solo i bucket S3 per uso generico.

Esistono dei limiti al numero di file e MB per file che possono essere sottoposti a scansione. Vedi Quotas per le basi di conoscenza.

Funzionalità supportate

  • Campi di metadati del documento

  • Filtri di contenuto di inclusione/esclusione

  • Sincronizzazione incrementale dei contenuti per contenuti aggiunti, aggiornati ed eliminati

Prerequisiti

In Amazon S3, assicurati di:

  • Nota il bucket Amazon S3, URI Amazon Resource Name (ARN) e il AWS ID dell'account del proprietario del bucket. Puoi trovare la URI e ARN nella sezione delle proprietà della console Amazon S3. Il bucket deve trovarsi nella stessa regione della knowledge base di Amazon Bedrock. Devi avere l'autorizzazione per accedere al bucket.

Nel tuo AWS account, assicurati di:

  • Includi le autorizzazioni necessarie per connetterti alla tua fonte di dati nel tuo AWS Identity and Access Management (IAM) politica di ruolo/autorizzazioni per la tua knowledge base. Per informazioni sulle autorizzazioni richieste per questa fonte di dati da aggiungere alla knowledge base IAM ruolo, vedi Autorizzazioni per accedere alle fonti di dati.

Nota

Se usi la console, il IAM il ruolo con tutte le autorizzazioni richieste può essere creato automaticamente come parte dei passaggi per la creazione di una knowledge base. Dopo aver configurato l'origine dati e altre configurazioni, IAM il ruolo con tutte le autorizzazioni richieste viene applicato alla base di conoscenza specifica.

Configurazione della connessione

Per connetterti al tuo bucket Amazon S3, devi fornire le informazioni di configurazione necessarie in modo che Amazon Bedrock possa accedere ai tuoi dati ed eseguirne la scansione. È inoltre necessario seguire il. Prerequisiti

Un esempio di configurazione per questa fonte di dati è incluso in questa sezione.

Per ulteriori informazioni sui filtri di inclusione/esclusione, sui campi di metadati dei documenti, sulla sincronizzazione incrementale e sul loro funzionamento, seleziona quanto segue:

Puoi includere un file separato che specifica i campi/attributi dei metadati del documento per ogni file in Amazon S3. Ad esempio, il documento oscars-coverage_20240310.pdf contiene articoli di notizie, che possono essere classificati per anno e genere. Per questo esempio, crea e carica nel tuo bucket quanto segue oscars-coverage_20240310.pdf.metadata.json file.

{ "metadataAttributes": { "genre": "entertainment", "year": 2024 } }

Il file di metadati deve utilizzare lo stesso nome del file di documento di origine associato, .metadata.json aggiunto alla fine del nome del file. Il file di metadati deve essere archiviato nella stessa cartella o posizione del file di origine nel bucket Amazon S3. Il file non deve superare il limite di 10 KB. Per informazioni sui tipi di dati di attributi/campi supportati e sugli operatori di filtro che puoi applicare ai campi di metadati, consulta Metadati e filtri.

Puoi includere o escludere la scansione di determinati contenuti. Ad esempio, puoi specificare un prefisso di esclusione/un modello di espressione regolare per ignorare la scansione di qualsiasi file che contenga «privato» nel nome del file. È inoltre possibile specificare un prefisso di inclusione/un modello di espressione regolare per includere determinate entità di contenuto o tipi di contenuto. Se specificate un filtro di inclusione ed esclusione ed entrambi corrispondono a un documento, il filtro di esclusione ha la precedenza e il documento non viene sottoposto a scansione.

Un esempio di modello di filtro per includere solo PDF i file: «.*\\ .pdf»

Il connettore per le sorgenti dati esegue la ricerca per indicizzazione dei contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con la Knowledge Base. Amazon Bedrock può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti ed eseguire la scansione dei contenuti modificati dall'ultima sincronizzazione. Quando sincronizzi l'origine dati con la Knowledge Base per la prima volta, per impostazione predefinita tutti i contenuti vengono sottoposti a scansione.

Per sincronizzare la fonte di dati con la knowledge base, utilizza StartIngestionJobAPIo seleziona la knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle origini dati.

Importante

Tutti i dati che sincronizzi dalla tua fonte di dati diventano disponibili per chiunque disponga bedrock:Retrieve delle autorizzazioni per recuperare i dati. Ciò può includere anche tutti i dati con autorizzazioni controllate per l'origine dei dati. Per ulteriori informazioni, consulta Autorizzazioni della Knowledge Base.

Console

Di seguito è riportato un esempio di configurazione per la connessione ad Amazon S3 per la tua knowledge base Amazon Bedrock. Puoi configurare la tua fonte di dati come parte delle fasi di creazione della knowledge base nella console.

  1. Accedi a AWS Management Console utilizzando un IAMruolo con autorizzazioni Amazon Bedrock e apri la console Amazon Bedrock all'indirizzo. https://console.aws.amazon.com/bedrock/

  2. Dal riquadro di navigazione a sinistra, seleziona Knowledge base.

  3. Nella sezione Knowledge base, seleziona Crea knowledge base.

  4. Fornisci i dettagli della knowledge base.

    1. Fornire il nome della knowledge base e la descrizione facoltativa.

    2. Fornire il AWS Identity and Access Management ruolo per le autorizzazioni di accesso necessarie per creare una knowledge base.

      Nota

      Il IAM il ruolo con tutte le autorizzazioni richieste può essere creato automaticamente come parte dei passaggi della console per la creazione di una knowledge base. Dopo aver completato i passaggi per la creazione di una knowledge base, IAM il ruolo con tutte le autorizzazioni richieste viene applicato alla base di conoscenza specifica.

    3. Crea tutti i tag che desideri assegnare alla tua knowledge base.

    Vai alla sezione successiva per configurare la tua fonte di dati.

  5. Scegli Amazon S3 come fonte di dati e fornisci i dettagli di configurazione della connessione.

    1. Fornisci il nome della fonte di dati.

    2. Specificate se il bucket Amazon S3 è nel vostro attuale AWS account o altro AWS conto.

    3. Naviga da una posizione di bucket Amazon S3 esistente o fornisci il. URI Puoi trovare la URI e ARN nella sezione delle proprietà della console Amazon S3. Il bucket deve trovarsi nella stessa regione della knowledge base di Amazon Bedrock. Devi avere l'autorizzazione per accedere al bucket.

      Puoi scegliere di utilizzare il tuo gestore AWS KMS chiave per la crittografia dei dati.

    Controlla le impostazioni avanzate. Facoltativamente, è possibile modificare le impostazioni predefinite selezionate.

  6. Imposta la chiave di crittografia dei dati transitori e la politica di eliminazione dei dati nelle impostazioni avanzate.

    In KMS key impostazioni, puoi scegliere una chiave personalizzata o utilizzare la chiave di crittografia dei dati fornita di default.

    Durante la conversione dei dati in incorporamenti, Amazon Bedrock crittografa i dati transitori con una chiave che AWS possiede e gestisce, per impostazione predefinita. Puoi usare la tua KMS chiave. Per ulteriori informazioni, consulta Crittografia dell'archiviazione di dati transitoria durante l'importazione dei dati.

    Per le impostazioni della politica di cancellazione dei dati, puoi scegliere tra:

    • Elimina: elimina tutti i dati dall'origine dati convertiti in incorporamenti vettoriali al momento dell'eliminazione di una knowledge base o di una risorsa di origine dati. Nota che l'archivio vettoriale stesso non viene eliminato, ma solo i dati. Questo flag viene ignorato se un AWS l'account viene eliminato.

    • Conserva: conserva tutti i dati della fonte di dati convertiti in incorporamenti vettoriali dopo l'eliminazione di una knowledge base o di una risorsa di origine dati. Tieni presente che l'archivio vettoriale stesso non viene eliminato se elimini una knowledge base o una risorsa di origine dati.

    Continua a configurare la tua fonte di dati.

  7. Scegli le configurazioni di suddivisione in blocchi e analisi predefinite o personalizzate.

    1. Se scegli impostazioni personalizzate, seleziona una delle seguenti opzioni di suddivisione in blocchi:

      • Suddivisione in blocchi a dimensione fissa: il contenuto è suddiviso in blocchi di testo della dimensione approssimativa del token impostata. È possibile impostare il numero massimo di token che non deve superare per ogni blocco e la percentuale di sovrapposizione tra blocchi consecutivi.

      • Suddivisione in blocchi predefinita: il contenuto è suddiviso in blocchi di testo composti da un massimo di 300 token. Se un singolo documento o contenuto contiene meno di 300 token, il documento non viene ulteriormente suddiviso.

      • Suddivisione gerarchica: contenuto organizzato in strutture annidate di blocchi padre-figlio. È possibile impostare la dimensione massima del token del blocco principale e la dimensione massima del token del blocco secondario. È inoltre possibile impostare il numero assoluto di token di sovrapposizione tra blocchi principali consecutivi e blocchi figlio consecutivi.

      • Suddivisione semantica: contenuto organizzato in blocchi di testo o gruppi di frasi semanticamente simili. È possibile impostare il numero massimo di frasi che circondano la frase destinataria/corrente da raggruppare (dimensione del buffer). È inoltre possibile impostare la soglia percentile del punto di interruzione per dividere il testo in blocchi significativi. La suddivisione in blocchi semantici utilizza un modello di base. Visualizzazione di Amazon Bedrock prezzi per informazioni sul costo dei modelli di base.

      • Nessuna suddivisione in blocchi: ogni documento viene trattato come un unico blocco di testo. Potresti voler preelaborare i tuoi documenti suddividendoli in file separati.

      Nota

      Non puoi modificare la strategia di suddivisione in blocchi dopo aver creato la fonte di dati.

    2. Puoi scegliere di usare Amazon Bedrockè il modello base per analizzare i documenti in modo da analizzare più del testo standard. Ad esempio, è possibile analizzare i dati tabulari all'interno dei documenti con la loro struttura intatta. Visualizzazione di Amazon Bedrock prezzi per informazioni sul costo dei modelli di base.

    3. Puoi scegliere di utilizzare un AWS Lambda funzione per personalizzare la strategia di suddivisione in blocchi e il modo in cui gli attributi/campi dei metadati dei documenti vengono trattati e inseriti. Fornisci il Amazon S3 posizione del bucket per l'input e l'output della funzione Lambda.

    Vai alla sezione successiva per configurare il tuo archivio vettoriale.

  8. Scegli un modello per convertire i dati in incorporamenti vettoriali.

    Crea un archivio vettoriale per consentire ad Amazon Bedrock di archiviare, aggiornare e gestire gli incorporamenti. Puoi creare rapidamente un nuovo archivio vettoriale o selezionarlo da un archivio vettoriale supportato che hai creato. Se crei un nuovo archivio vettoriale, vengono configurati automaticamente una raccolta e un indice di ricerca vettoriale Amazon OpenSearch Serverless con i campi obbligatori. Se selezioni da un archivio vettoriale supportato, devi mappare i nomi dei campi vettoriali e i nomi dei campi di metadati.

    Passate alla sezione successiva per esaminare le configurazioni della knowledge base.

  9. Controlla i dettagli della tua knowledge base. Puoi modificare qualsiasi sezione prima di procedere e creare la tua knowledge base.

    Nota

    Il tempo necessario per creare la knowledge base dipende dalle configurazioni specifiche. Una volta completata la creazione della knowledge base, lo stato della knowledge base cambia e indica che è pronta o disponibile.

    Una volta che la knowledge base è pronta e disponibile, sincronizza la fonte di dati per la prima volta e ogni volta che vuoi mantenere aggiornati i tuoi contenuti. Seleziona la tua knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle fonti di dati.

API

Di seguito è riportato un esempio di configurazione per la connessione ad Amazon S3 per la tua knowledge base Amazon Bedrock. Puoi configurare la tua fonte di dati utilizzando il API AWS CLI o supportatoSDK, come Python. Dopo la chiamata CreateKnowledgeBase, chiami CreateDataSourceper creare la fonte di dati contenente le informazioni di connessione. dataSourceConfiguration Ricordati di specificare anche la tua strategia o il tuo approccio alla suddivisione in blocchi vectorIngestionConfiguration e la tua politica di cancellazione dei dati in. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "S3 connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }