Personalizza l'inserimento per un'origine dati - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Personalizza l'inserimento per un'origine dati

Puoi personalizzare l'ingestione vettoriale quando colleghi una fonte di dati in AWS Management Console o modificando il valore del campo quando invii una richiesta. vectorIngestionConfiguration CreateDataSource

Seleziona un argomento per scoprire come includere configurazioni per personalizzare l'ingestione durante la connessione a una fonte di dati:

Scegli lo strumento da utilizzare per l'analisi

Puoi personalizzare il modo in cui vengono analizzati i documenti contenuti nei tuoi dati. Per ulteriori informazioni sulle opzioni per l'analisi dei dati nelle Knowledge Base di Amazon Bedrock, consulta. Opzioni di analisi per la tua fonte di dati

avvertimento

Non puoi modificare la strategia di analisi dopo la connessione alla fonte di dati. Per utilizzare una strategia di analisi diversa, puoi aggiungere una nuova fonte di dati.

Non puoi aggiungere una posizione S3 per archiviare dati multimodali (tra cui immagini, figure, grafici e tabelle) dopo aver creato una knowledge base. Se desideri includere dati multimodali e utilizzare un parser che li supporti, devi creare una nuova knowledge base.

I passaggi necessari per la scelta di una strategia di analisi dipendono dal fatto che utilizzi l' AWS Management Console API Amazon Bedrock e dal metodo di analisi scelto. Se scegli un metodo di analisi che supporti i dati multimodali, devi specificare un URI S3 in cui archiviare i dati multimodali estratti dai tuoi documenti. Questi dati possono essere restituiti nella query della Knowledge Base.

  • In AWS Management Console, procedi come segue:

    1. Seleziona la strategia di analisi quando ti connetti a una fonte di dati durante la configurazione di una knowledge base o quando aggiungi una nuova fonte di dati alla tua knowledge base esistente.

    2. (Se scegli Amazon Bedrock Data Automation o un modello base come strategia di analisi) Specificate un URI S3 in cui archiviare i dati multimodali estratti dai tuoi documenti nella sezione Destinazione di archiviazione multimodale quando selezioni un modello di incorporamento e configuri il tuo archivio vettoriale. In questa fase puoi anche utilizzare facoltativamente una chiave gestita dal cliente per crittografare i dati S3.

  • Nell'API Amazon Bedrock, esegui le seguenti operazioni:

    1. (Se prevedi di utilizzare Amazon Bedrock Data Automation o un modello base come strategia di analisi) VectorKnowledgeBaseConfigurationIncludi una CreateKnowledgeBaserichiesta. SupplementalDataStorageLocation

    2. ParsingConfigurationIncludi un nel parsingConfiguration campo della VectorIngestionConfigurationCreateDataSourcerichiesta.

      Nota

      Se ometti questa configurazione, Amazon Bedrock Knowledge Bases utilizza il parser predefinito di Amazon Bedrock.

Per ulteriori dettagli su come specificare una strategia di analisi nell'API, espandi la sezione corrispondente alla strategia di analisi che desideri utilizzare:

Per utilizzare il parser predefinito, non includere un parsingConfiguration campo all'interno di. VectorIngestionConfiguration

Per utilizzare il parser Amazon Bedrock Data Automation, specifica BEDROCK_DATA_AUTOMATION nel parsingStrategy campo di ParsingConfiguration e includi un BedrockDataAutomationConfigurationnel bedrockDataAutomationConfiguration campo, come nel seguente formato:

{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }

Per utilizzare un modello di base come parser, specificate il BEDROCK_FOUNDATION_MODEL nel parsingStrategy campo di ParsingConfiguration e includete un BedrockFoundationModelConfigurationnel bedrockFoundationModelConfiguration campo, come nel seguente formato:

{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }

Scegliete una strategia di suddivisione in blocchi

Puoi personalizzare il modo in cui i documenti contenuti nei tuoi dati vengono suddivisi in blocchi per l'archiviazione e il recupero. Per ulteriori informazioni sulle opzioni per suddividere in blocchi i dati nelle Knowledge Base di Amazon Bedrock, consulta. Come funziona la suddivisione in blocchi dei contenuti per le knowledge base

avvertimento

Non puoi modificare la strategia di suddivisione in blocchi dopo la connessione alla fonte di dati.

Nella AWS Management Console scegli la strategia di suddivisione in blocchi quando ti connetti a una fonte di dati. Con l'API Amazon Bedrock, includi un ChunkingConfigurationnel chunkingConfiguration campo di VectorIngestionConfiguration.

Nota

Se ometti questa configurazione, Amazon Bedrock divide i tuoi contenuti in blocchi di circa 300 token, preservando i limiti delle frasi.

Espandi la sezione corrispondente alla strategia di analisi che desideri utilizzare:

Per trattare ogni documento dell'origine dati come un singolo blocco di origine, specifica NONE nel chunkingStrategy campo diChunkingConfiguration, come nel seguente formato:

{ "chunkingStrategy": "NONE" }

Per dividere ogni documento dell'origine dati in blocchi di circa le stesse dimensioni, specifica FIXED_SIZE nel campo di ChunkingConfiguration e includi un nel chunkingStrategy fixedSizeChunkingConfiguration campo, come FixedSizeChunkingConfigurationnel formato seguente:

{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }

Per dividere ogni documento dell'origine dati in due livelli, in cui il secondo livello contiene blocchi più piccoli derivati dal primo livello, specifica HIERARCHICAL nel campo ChunkingConfiguration e includi il chunkingStrategy hierarchicalChunkingConfiguration campo, come nel seguente formato:

{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }

Per dividere ogni documento della fonte di dati in blocchi che danno priorità al significato semantico rispetto alla struttura sintattica, specifica nel campo ChunkingConfiguration e includi il chunkingStrategy campo, come SEMANTIC nel seguente formato: semanticChunkingConfiguration

{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }

Utilizzare una funzione Lambda durante l'ingestione

Puoi post-elaborare il modo in cui i blocchi di origine dei tuoi dati vengono scritti nel vector store con una funzione Lambda nei seguenti modi:

  • Includi la logica di suddivisione in blocchi per fornire una strategia di suddivisione in blocchi personalizzata.

  • Includi la logica per specificare i metadati a livello di blocco.

Per informazioni sulla scrittura di una funzione Lambda personalizzata per l'ingestione, consulta. Usa una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati Nella AWS Management Console scegli la funzione Lambda quando ti connetti a un'origine dati. Con l'API Amazon Bedrock, includi un CustomTransformationConfigurationnel CustomTransformationConfiguration campo VectorIngestionConfiguratione specifichi l'ARN della Lambda, come nel seguente formato:

{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }

È inoltre necessario specificare la posizione S3 in cui archiviare l'output dopo aver applicato la funzione Lambda.

Puoi includere il chunkingConfiguration campo per applicare la funzione Lambda dopo aver applicato una delle opzioni di suddivisione in blocchi offerte da Amazon Bedrock.