Modelli Amazon Titan Text Embeddings - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modelli Amazon Titan Text Embeddings

Amazon Titan I modelli di incorporamento includono Amazon Titan Text Embeddings v2 e modello Titan Text Embeddings G1.

Gli incorporamenti di testo sono rappresentazioni vettoriali significative di testo non strutturato come documenti, paragrafi e frasi. Si inserisce un corpo del testo e l'output è un vettore (1 x n). Puoi utilizzare i vettori di incorporamento per varie applicazioni.

Il modello Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) può utilizzare fino a 8.192 token e generare un vettore di 1.024 dimensioni. Il modello funziona anche in oltre 100 lingue diverse. Il modello è ottimizzato per le attività di recupero del testo, ma può essere ottimizzato anche per attività aggiuntive, come la somiglianza semantica e il clustering.

I modelli Amazon Titan Embeddings generano rappresentazioni semantiche significative di documenti, paragrafi e frasi. Amazon Titan Text Embeddings prende come input un corpo di testo e genera un vettore (1 x n). Amazon Titan Text Embeddings viene offerto tramite invocazione degli endpoint ottimizzata per la latenza per una ricerca più rapida (consigliata durante la fase di recupero) e processi batch ottimizzati per la velocità effettiva per un'indicizzazione più rapida. Amazon Titan Text Embeddings v2 supporta documenti lunghi, tuttavia per le attività di recupero, si consiglia di segmentare i documenti in segmenti logici, come paragrafi o sezioni.

Il modello Amazon Titan Embedding Text v2 supporta le seguenti lingue: inglese, tedesco, francese, spagnolo, giapponese, cinese, hindi, arabo, italiano, portoghese, svedese, coreano, ebraico, ceco, turco, tagalog, russo, olandese, polacco, tamil, marathi, malayalam, telugu, kannada, vietnamita, finlandese, persiano, ungherese, greco moderno, rumeno, danese, tailandese, norvegese, slovacco, ucraino, norvegese, bulgaro, catalano, serbo, croato, lituano, sloveno, estone, latino, bengalese, lettone, malese, bosniaco, albanese, azero, galiziano, islandese, georgiano, macedone, basco, armeno, nepalese, urdu, kazako, mongolo, bielorusso, uzbeko, khmer, norvegese Nynorsk, gujarati, birmano, gallese, esperanto, singalese, tataro, swahili, afrikaans, irlandese, panjabi, curdo, kirghiso, tagiko, oriya, laotiano, maltese, somalo, lussemburghese, amarico, occitano, giavanese, hausa, pushto, sanscrito, frisone occidentale, malgascio, assamese, baschiro, bretone, Waray (Filippine), turkmeno, corso, dhivehi, cebuano, kinyarwanda, haitiano, yiddish, sindaco ciao, zulù, gaelico scozzese, tibetano, uiguro, maori, romancio, xhosa, sundanese, yoruba.

Nota

Il modello Amazon Titan Text Embeddings v2 e il modello Titan Text Embeddings v1 non supportano parametri di inferenza come o. maxTokenCount topP

Modello Amazon Titan Text Embeddings V2

  • ID modello: amazon.titan-embed-text-v2:0

  • Numero massimo di token di testo in ingresso: 8.192

  • Lingue: inglese (oltre 100 lingue in anteprima)

  • Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256

  • Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata

  • Casi d'uso supportati: ricerca di documentiRAG, riclassificazione, classificazione, ecc.

Nota

Titan Text Embeddings V2 accetta come input una stringa non vuota con un massimo di 8.192 token. Il rapporto caratteri/token in inglese è in media di 4,7 caratteri per token. Sebbene Titan Text Embeddings V1 e Titan Text Embeddings V2 siano in grado di ospitare fino a 8.192 token, si consiglia di segmentare i documenti in segmenti logici (come paragrafi o sezioni).

Per utilizzare i modelli di incorporamento di testo o immagini, utilizzate l'Invoke ModelAPIoperazione con amazon.titan-embed-text-v2 o amazon.titan-embed-image-v2 come e recuperate l'oggetto di incorporamento nella risposta. model Id

Per vedere esempi di notebook Jupyter:

  1. Accedi alla console Amazon Bedrock da https://console.aws.amazon.com/bedrock/ casa.

  2. Scorri verso il basso e seleziona Amazon Titan Text Embeddings V2Modello di

  3. In Amazon Titan Text Embeddings V2scheda (a seconda del modello scelto), seleziona Visualizza taccuino di esempio per visualizzare taccuini di esempio da incorporare.

Per ulteriori informazioni sulla preparazione del set di dati per l'addestramento multimodale, consulta Preparazione dei set di dati.