Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizza l'inserimento per un'origine dati
Puoi personalizzare l'ingestione vettoriale quando colleghi una fonte di dati in AWS Management Console o modificando il valore del campo quando invii una richiesta. vectorIngestionConfiguration
CreateDataSource
Seleziona un argomento per scoprire come includere configurazioni per personalizzare l'ingestione durante la connessione a una fonte di dati:
Argomenti
Scegli lo strumento da utilizzare per l'analisi
Puoi personalizzare il modo in cui vengono analizzati i documenti contenuti nei tuoi dati. Per ulteriori informazioni sulle opzioni per l'analisi dei dati nelle Knowledge Base di Amazon Bedrock, consulta. Opzioni di analisi per la tua fonte di dati
avvertimento
Non puoi modificare la strategia di analisi dopo la connessione alla fonte di dati. Per utilizzare una strategia di analisi diversa, puoi aggiungere una nuova fonte di dati.
Non puoi aggiungere una posizione S3 per archiviare dati multimodali (tra cui immagini, figure, grafici e tabelle) dopo aver creato una knowledge base. Se desideri includere dati multimodali e utilizzare un parser che li supporti, devi creare una nuova knowledge base.
I passaggi necessari per la scelta di una strategia di analisi dipendono dal fatto che utilizzi l' AWS Management Console API Amazon Bedrock e dal metodo di analisi scelto. Se scegli un metodo di analisi che supporti i dati multimodali, devi specificare un URI S3 in cui archiviare i dati multimodali estratti dai tuoi documenti. Questi dati possono essere restituiti nella query della Knowledge Base.
-
In AWS Management Console, procedi come segue:
-
Seleziona la strategia di analisi quando ti connetti a una fonte di dati durante la configurazione di una knowledge base o quando aggiungi una nuova fonte di dati alla tua knowledge base esistente.
-
(Se scegli Amazon Bedrock Data Automation o un modello base come strategia di analisi) Specificate un URI S3 in cui archiviare i dati multimodali estratti dai tuoi documenti nella sezione Destinazione di archiviazione multimodale quando selezioni un modello di incorporamento e configuri il tuo archivio vettoriale. In questa fase puoi anche utilizzare facoltativamente una chiave gestita dal cliente per crittografare i dati S3.
-
-
Nell'API Amazon Bedrock, esegui le seguenti operazioni:
-
(Se prevedi di utilizzare Amazon Bedrock Data Automation o un modello base come strategia di analisi) VectorKnowledgeBaseConfigurationIncludi una CreateKnowledgeBaserichiesta. SupplementalDataStorageLocation
-
ParsingConfigurationIncludi un nel
parsingConfiguration
campo della VectorIngestionConfigurationCreateDataSourcerichiesta.Nota
Se ometti questa configurazione, Amazon Bedrock Knowledge Bases utilizza il parser predefinito di Amazon Bedrock.
-
Per ulteriori dettagli su come specificare una strategia di analisi nell'API, espandi la sezione corrispondente alla strategia di analisi che desideri utilizzare:
Per utilizzare il parser predefinito, non includere un parsingConfiguration
campo all'interno di. VectorIngestionConfiguration
Per utilizzare il parser Amazon Bedrock Data Automation, specifica BEDROCK_DATA_AUTOMATION
nel parsingStrategy
campo di ParsingConfiguration
e includi un BedrockDataAutomationConfigurationnel bedrockDataAutomationConfiguration
campo, come nel seguente formato:
{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }
Per utilizzare un modello di base come parser, specificate il BEDROCK_FOUNDATION_MODEL
nel parsingStrategy
campo di ParsingConfiguration
e includete un BedrockFoundationModelConfigurationnel bedrockFoundationModelConfiguration
campo, come nel seguente formato:
{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }
Scegliete una strategia di suddivisione in blocchi
Puoi personalizzare il modo in cui i documenti contenuti nei tuoi dati vengono suddivisi in blocchi per l'archiviazione e il recupero. Per ulteriori informazioni sulle opzioni per suddividere in blocchi i dati nelle Knowledge Base di Amazon Bedrock, consulta. Come funziona la suddivisione in blocchi dei contenuti per le knowledge base
avvertimento
Non puoi modificare la strategia di suddivisione in blocchi dopo la connessione alla fonte di dati.
Nella AWS Management Console scegli la strategia di suddivisione in blocchi quando ti connetti a una fonte di dati. Con l'API Amazon Bedrock, includi un ChunkingConfigurationnel chunkingConfiguration
campo di VectorIngestionConfiguration.
Nota
Se ometti questa configurazione, Amazon Bedrock divide i tuoi contenuti in blocchi di circa 300 token, preservando i limiti delle frasi.
Espandi la sezione corrispondente alla strategia di analisi che desideri utilizzare:
Per trattare ogni documento dell'origine dati come un singolo blocco di origine, specifica NONE
nel chunkingStrategy
campo diChunkingConfiguration
, come nel seguente formato:
{ "chunkingStrategy": "NONE" }
Per dividere ogni documento dell'origine dati in blocchi di circa le stesse dimensioni, specifica FIXED_SIZE
nel campo di ChunkingConfiguration
e includi un nel chunkingStrategy
fixedSizeChunkingConfiguration
campo, come FixedSizeChunkingConfigurationnel formato seguente:
{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
Per dividere ogni documento dell'origine dati in due livelli, in cui il secondo livello contiene blocchi più piccoli derivati dal primo livello, specifica HIERARCHICAL
nel campo ChunkingConfiguration
e includi il chunkingStrategy
hierarchicalChunkingConfiguration
campo, come nel seguente formato:
{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }
Per dividere ogni documento della fonte di dati in blocchi che danno priorità al significato semantico rispetto alla struttura sintattica, specifica nel campo ChunkingConfiguration
e includi il chunkingStrategy
campo, come SEMANTIC
nel seguente formato: semanticChunkingConfiguration
{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }
Utilizzare una funzione Lambda durante l'ingestione
Puoi post-elaborare il modo in cui i blocchi di origine dei tuoi dati vengono scritti nel vector store con una funzione Lambda nei seguenti modi:
-
Includi la logica di suddivisione in blocchi per fornire una strategia di suddivisione in blocchi personalizzata.
-
Includi la logica per specificare i metadati a livello di blocco.
Per informazioni sulla scrittura di una funzione Lambda personalizzata per l'ingestione, consulta. Usa una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati Nella AWS Management Console scegli la funzione Lambda quando ti connetti a un'origine dati. Con l'API Amazon Bedrock, includi un CustomTransformationConfigurationnel CustomTransformationConfiguration
campo VectorIngestionConfiguratione specifichi l'ARN della Lambda, come nel seguente formato:
{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }
È inoltre necessario specificare la posizione S3 in cui archiviare l'output dopo aver applicato la funzione Lambda.
Puoi includere il chunkingConfiguration
campo per applicare la funzione Lambda dopo aver applicato una delle opzioni di suddivisione in blocchi offerte da Amazon Bedrock.