Scegliere lo strumento da utilizzare per l’analisi Scegliere una strategia di chunking Utilizzare una funzione Lambda durante l’importazione

Personalizzare l’importazione per un’origine dati

Importante

Per una precisione di recupero ottimizzata e un'esperienza gestita, consigliamo Amazon Bedrock Managed Knowledge Base.

Puoi personalizzare l'ingestione vettoriale quando connetti un'origine dati in AWS Management Console o modificando il valore del campo quando invii una richiesta. vectorIngestionConfiguration CreateDataSource

Selezionare un argomento per scoprire come includere configurazioni per personalizzare l’importazione durante la connessione a un’origine dati:

Argomenti

Scegliere lo strumento da utilizzare per l’analisi
Scegliere una strategia di chunking
Utilizzare una funzione Lambda durante l’importazione

Scegliere lo strumento da utilizzare per l’analisi

È possibile personalizzare il modo in cui vengono analizzati i documenti nei dati. Per ulteriori informazioni sulle opzioni per l’analisi dei dati in Knowledge Base per Amazon Bedrock, consulta Opzioni di analisi per l’origine dati.

avvertimento

Non è possibile modificare il tipo di strategia di analisi (ad esempio, da BEDROCK_FOUNDATION_MODEL aBEDROCK_DATA_AUTOMATION) dopo la connessione all'origine dati. Per utilizzare un tipo di strategia di analisi diverso, devi aggiungere una nuova fonte di dati. Tuttavia, è possibile aggiornare i parametri di configurazione all'interno della stessa strategia di analisi, ad esempio modelArn in bedrockFoundationModelConfiguration o. parsingPrompt Durante l'aggiornamento, recuperate la configurazione esistente completa utilizzando GetDataSource e passatela completa vectorIngestionConfiguration modificando solo i valori specifici.

Non è possibile aggiungere una posizione S3 per archiviare dati multimodali (tra cui immagini, figure, grafici e tabelle) dopo aver creato una knowledge base. Per includere i dati multimodali e utilizzare un parser che li supporti, è necessario creare una nuova knowledge base.

I passaggi necessari per la scelta di una strategia di analisi dipendono dal fatto che utilizzi l'AWS Management ConsoleAPI Amazon Bedrock e dal metodo di analisi scelto. Se viene scelto un metodo di analisi che supporta i dati multimodali, è necessario specificare un URI S3 in cui archiviare i dati multimodali estratti dai documenti. Questi dati possono essere restituiti nella query della knowledge base.

InAWS Management Console, procedi come segue:
1. Selezionare la strategia di analisi quando ci si connette a un’origine dati durante la configurazione di una knowledge base o quando si aggiunge una nuova origine dati alla knowledge base esistente.
2. (Se si sceglie Amazon Bedrock Data Automation o un modello di fondazione come strategia di analisi) Specificare un URI S3 in cui archiviare i dati multimodali estratti dai documenti nella sezione Destinazione di archiviazione multimodale quando si seleziona un modello di embedding e si configura l’archivio vettoriale. In questa fase è inoltre possibile utilizzare una chiave gestita dal cliente per criptare i dati S3.
Nell’API Amazon Bedrock, procedere come segue:
1. (Se prevedi di utilizzare Amazon Bedrock Data Automation o un modello base come strategia di analisi) VectorKnowledgeBaseConfigurationIncludi una CreateKnowledgeBaserichiesta. SupplementalDataStorageLocation
2. ParsingConfigurationIncludi un nel parsingConfiguration campo della VectorIngestionConfiguration CreateDataSourcerichiesta.
  
  Nota
  Se si omette questa configurazione, Knowledge Base per Amazon Bedrock utilizza il parser predefinito di Amazon Bedrock.

Per ulteriori dettagli su come specificare una strategia di analisi nell’API, espandere la sezione corrispondente alla strategia di analisi che si desidera utilizzare:

Per utilizzare il parser predefinito, non includere un campo parsingConfiguration nella VectorIngestionConfiguration.

Per utilizzare il parser Amazon Bedrock Data Automation, specifica BEDROCK_DATA_AUTOMATION nel parsingStrategy campo di ParsingConfiguration e includi un BedrockDataAutomationConfigurationnel bedrockDataAutomationConfiguration campo, come nel seguente formato:


{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}

Per utilizzare un modello di base come parser, specifica il BEDROCK_FOUNDATION_MODEL nel parsingStrategy campo di ParsingConfiguration e includi un BedrockFoundationModelConfigurationnel bedrockFoundationModelConfiguration campo, come nel seguente formato:


{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}

Scegliere una strategia di chunking

È possibile personalizzare il modo in cui i documenti contenuti nei dati vengono suddivisi in blocchi per l’archiviazione e il recupero. Per ulteriori informazioni sulle opzioni per il chunking dei dati in Knowledge Base per Amazon Bedrock, consulta Come funziona il chunking dei contenuti per le knowledge base.

avvertimento

Dopo la connessione all’origine dati, non è possibile modificare la strategia di chunking.

Nella AWS Management Console scegli la strategia di suddivisione in blocchi quando ti connetti a una fonte di dati. Con l'API Amazon Bedrock, includi un ChunkingConfigurationnel chunkingConfiguration campo di VectorIngestionConfiguration.

Nota

Se si omette questa configurazione, Amazon Bedrock divide i contenuti in blocchi di circa 300 token, preservando i limiti delle frasi.

Espandere la sezione corrispondente alla strategia di analisi desiderata:

Per trattare ogni documento dell’origine dati come un singolo blocco di origine, specificare NONE nel campo chunkingStrategy della ChunkingConfiguration, come nel seguente formato:


{
    "chunkingStrategy": "NONE"
}

Per dividere ogni documento della fonte di dati in blocchi approssimativamente della stessa dimensione, specifica FIXED_SIZE nel chunkingStrategy campo di ChunkingConfiguration e includi un FixedSizeChunkingConfigurationnel fixedSizeChunkingConfiguration campo, come nel formato seguente:


{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}

Per dividere ogni documento nell’origine dati in due livelli, in cui il secondo livello contiene blocchi più piccoli derivati dal primo livello, specificare HIERARCHICAL nel campo chunkingStrategy della ChunkingConfiguration e includere il campo hierarchicalChunkingConfiguration, come nel seguente formato:


{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}

Per dividere ogni documento nell’origine dati in blocchi che danno priorità al significato semantico rispetto alla struttura sintattica, specificare SEMANTIC nel campo chunkingStrategy della ChunkingConfiguration e includere il campo, come semanticChunkingConfiguration nel seguente formato:


{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}

Utilizzare una funzione Lambda durante l’importazione

È possibile post-elaborare il modo in cui i blocchi di origine dati vengono scritti nell’archivio vettoriale con una funzione Lambda nei seguenti modi:

Includere la logica di chunking per fornire una strategia di chunking personalizzata.
Includere la logica per specificare i metadati a livello di blocco.

Per ulteriori informazioni sulla creazione di una funzione Lambda; personalizzata per l’importazione, consultare Utilizzo di una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati. Nella AWS Management Console scegli la funzione Lambda quando ti connetti a un'origine dati. Con l'API Amazon Bedrock, includi un CustomTransformationConfigurationnel CustomTransformationConfiguration campo VectorIngestionConfiguratione specifichi l'ARN della Lambda, come nel seguente formato:


{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}

È inoltre necessario specificare la posizione S3 in cui archiviare l’output dopo aver applicato la funzione Lambda.

Dopo aver applicato una delle opzioni di chunking disponibili in da Amazon Bedrock, è possibile includere il campo chunkingConfiguration per applicare la funzione Lambda.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Personalizzato

Definire le configurazioni di sicurezza per una knowledge base