Modelli Amazon Titan Text Embeddings - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modelli Amazon Titan Text Embeddings

I modelli di testo di Amazon Titan Embeddings includono Amazon Titan Text Embeddings v2 e il modello Titan Text Embeddings G1.

Gli incorporamenti di testo sono rappresentazioni vettoriali significative di testo non strutturato come documenti, paragrafi e frasi. Si inserisce un corpo del testo e l'output è un vettore (1 x n). Puoi utilizzare i vettori di incorporamento per varie applicazioni.

Il modello Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) può utilizzare fino a 8.192 token e generare un vettore di 1.024 dimensioni. Il modello funziona anche in più di 100 lingue diverse. Il modello è ottimizzato per le attività di recupero del testo, ma può anche eseguire attività aggiuntive, come la somiglianza semantica e il raggruppamento. Amazon Titan Embeddings text v2 supporta anche documenti lunghi, tuttavia, per le attività di recupero si consiglia di segmentare i documenti in segmenti logici, come paragrafi o sezioni.

I modelli Amazon Titan Embeddings generano rappresentazioni semantiche significative di documenti, paragrafi e frasi. Amazon Titan Text Embeddings prende come input un corpo di testo e genera un vettore n-dimensionale. Amazon Titan Text Embeddings è offerto tramite invocazione degli endpoint ottimizzata per la latenza [link] per una ricerca più rapida (consigliata durante la fase di recupero) e processi batch ottimizzati per la velocità effettiva [link] per un'indicizzazione più rapida.

Il modello Amazon Titan Embedding Text v2 supporta le seguenti lingue: inglese, tedesco, francese, spagnolo, giapponese, cinese, hindi, arabo, italiano, portoghese, svedese, coreano, ebraico, ceco, turco, tagalog, russo, olandese, polacco, tamil, marathi, malayalam, telugu, kannada, vietnamita, finlandese, persiano, ungherese, greco moderno, rumeno, danese, tailandese, norvegese, slovacco, ucraino, norvegese, bulgaro, catalano, serbo, croato, lituano, sloveno, estone, latino, bengalese, lettone, malese, bosniaco, albanese, azero, galiziano, islandese, georgiano, macedone, basco, armeno, nepalese, urdu, kazako, mongolo, bielorusso, uzbeko, khmer, norvegese Nynorsk, gujarati, birmano, gallese, esperanto, singalese, tataro, swahili, afrikaans, irlandese, panjabi, curdo, kirghiso, tagiko, oriya, laotiano, maltese, somalo, lussemburghese, amarico, occitano, giavanese, hausa, pushto, sanscrito, frisone occidentale, malgascio, assamese, baschiro, bretone, Waray (Filippine), turkmeno, corso, dhivehi, cebuano, kinyarwanda, haitiano, yiddish, sindhi, Zulu, gaelico scozzese, tibetano, uiguro, maori, romancio, xhosa, sundanese, yoruba.

Nota

Il modello Amazon Titan Text Embeddings v2 e il modello Titan Text Embeddings v1 non supportano parametri di inferenza come o. maxTokenCount topP

Modello Amazon Titan Text Embeddings V2

  • ID modello: amazon.titan-embed-text-v2:0

  • Numero massimo di token di testo in ingresso: 8.192

  • Lingue: inglese (oltre 100 lingue in anteprima)

  • Dimensione massima dell'immagine di input: 5 MB

  • Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256

  • Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata

  • Casi d'uso supportati: ricerca di documentiRAG, riclassificazione, classificazione, ecc.

Nota

Titan Text Embeddings V2 accetta come input una stringa non vuota con un massimo di 8.192 token. Il rapporto caratteri/token in inglese è di 4,7 caratteri per token. Sebbene Titan Text Embeddings V1 e Titan Text Embeddings V2 siano in grado di ospitare fino a 8.192 token, si consiglia di segmentare i documenti in segmenti logici (come paragrafi o sezioni).

Per utilizzare i modelli di incorporamento di testo o immagini, utilizzate l'Invoke ModelAPIoperazione con amazon.titan-embed-text-v1 o amazon.titan-embed-image-v1 come e recuperate l'oggetto di incorporamento nella risposta. model Id

Per vedere esempi di notebook Jupyter:

  1. Accedi alla console Amazon Bedrock da https://console.aws.amazon.com/bedrock/ casa.

  2. Dal menu a sinistra, scegli Modelli base.

  3. Scorri verso il basso e seleziona il Titan Embeddings G1 - Text modello Amazon

  4. Titan Embeddings G1 - TextNella scheda Amazon (a seconda del modello scelto), seleziona Visualizza notebook di esempio per visualizzare taccuini di esempio da incorporare.

Per ulteriori informazioni sulla preparazione del set di dati per l'addestramento multimodale, consulta Preparazione dei set di dati.