Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Quando acquisisci i dati, Amazon Bedrock divide innanzitutto i documenti o i contenuti in blocchi gestibili per un recupero efficiente dei dati. I blocchi vengono quindi convertiti in incorporamenti e scritti in un indice vettoriale (rappresentazione vettoriale dei dati), mantenendo al contempo una mappatura rispetto al documento originale. Gli incorporamenti vettoriali consentono di confrontare quantitativamente i testi.
Suddivisione in blocchi standard
Amazon Bedrock supporta i seguenti approcci standard alla suddivisione in blocchi:
-
Suddivisione in blocchi a dimensione fissa: puoi configurare la dimensione del blocco desiderata specificando il numero di token per blocco e una percentuale di sovrapposizione, in modo da garantire la flessibilità necessaria per adeguarti ai requisiti specifici. È possibile impostare il numero massimo di token che non deve superare per un blocco e la percentuale di sovrapposizione tra blocchi consecutivi.
-
Suddivisione in blocchi predefinita: divide il contenuto in blocchi di testo di circa 300 token. Il processo di suddivisione in blocchi rispetta i limiti delle frasi, garantendo che le frasi complete siano conservate all'interno di ogni blocco.
Puoi anche scegliere di non suddividere in blocchi i tuoi documenti. Ogni documento viene trattato come una singola porzione di testo. Potresti voler preelaborare i tuoi documenti suddividendoli in file separati prima di scegliere la suddivisione in blocchi come approccio/strategia di suddivisione in blocchi. Se scegli di non suddividere i documenti in blocchi, non puoi visualizzare il numero di pagina nella citazione o filtrare in base al campo/attributo di metadati -. x-amz-bedrock-kb document-page-number Questo campo viene generato automaticamente solo per i file PDF e se utilizzi Amazon OpenSearch Serverless come archivio vettoriale.
Suddivisione gerarchica
La suddivisione in blocchi gerarchici implica l'organizzazione delle informazioni in strutture annidate di blocchi figlio e genitore. Quando si crea un'origine dati, è possibile definire la dimensione del blocco principale, la dimensione del blocco secondario e il numero di token che si sovrappongono tra ogni blocco. Durante il recupero, il sistema recupera inizialmente i blocchi secondari, ma li sostituisce con blocchi principali più ampi in modo da fornire al modello un contesto più completo.
Gli incorporamenti di testo di piccole dimensioni sono più precisi, ma il recupero mira a un contesto completo. Un sistema di suddivisione in blocchi gerarchico bilancia queste esigenze sostituendo, se del caso, i blocchi secondari recuperati con i blocchi principali.
Per la suddivisione in blocchi gerarchici, le knowledge base di Amazon Bedrock supportano la specificazione di due livelli o della seguente profondità per la suddivisione in blocchi:
-
Genitore: è stata impostata la dimensione massima del token chunk principale.
-
Figlio: è stata impostata la dimensione massima del token chunk secondario.
È inoltre possibile impostare i token di sovrapposizione tra i blocchi. Questo è il numero assoluto di token di sovrapposizione tra blocchi principali consecutivi e blocchi figlio consecutivi.
Suddivisione in blocchi semantici
Il chunking semantico è una tecnica di elaborazione del linguaggio naturale che divide il testo in blocchi significativi per migliorare la comprensione e il recupero delle informazioni. Mira a migliorare la precisione del recupero concentrandosi sul contenuto semantico piuttosto che sulla semplice struttura sintattica. In questo modo, può facilitare l'estrazione e la manipolazione più precise delle informazioni pertinenti.
Quando si configura la suddivisione in blocchi semantici, è possibile specificare i seguenti parametri hyper.
-
Numero massimo di token: il numero massimo di token che devono essere inclusi in un singolo blocco, rispettando i limiti delle frasi.
-
Dimensione del buffer: per una determinata frase, la dimensione del buffer definisce il numero di frasi circostanti da aggiungere per la creazione degli incorporamenti. Ad esempio, una dimensione del buffer pari a 1 dà come risultato 3 frasi (frase corrente, precedente e successiva) da combinare e incorporare. Questo parametro può influenzare la quantità di testo esaminata insieme per determinare i confini di ogni blocco, influendo sulla granularità e sulla coerenza dei blocchi risultanti. Una dimensione del buffer più grande potrebbe catturare più contesto ma anche introdurre disturbi, mentre una dimensione del buffer più piccola potrebbe non avere un contesto importante ma garantisce una suddivisione in blocchi più precisa.
-
Soglia percentile del punto di interruzione: la soglia percentile della distanza/dissomiglianza delle frasi per tracciare punti di interruzione tra le frasi. Una soglia più alta richiede che le frasi siano più distinguibili per poter essere suddivise in blocchi diversi. Una soglia più alta comporta un minor numero di blocchi e in genere una dimensione media dei blocchi più grande.
Nota
L'utilizzo del chunking semantico comporta costi aggiuntivi dovuti all'uso di un modello di base. Il costo dipende dalla quantità di dati di cui disponi. Consulta i prezzi di Amazon Bedrock
per ulteriori informazioni sul costo dei modelli Foundation.