Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Modèles Amazon Titan Text Embeddings
Amazon Titan Les modèles de texte incorporés incluent Amazon Titan Modèle Text Embeddings v2 et Titan Text Embeddings G1.
Les intégrations de texte constituent des représentations vectorielles significatives de texte non structuré telles que des documents, des paragraphes et des phrases. Vous entrez un corps de texte, et la sortie est un vecteur (1 x n). Vous pouvez utiliser les vecteurs d’intégration dans une grande variété d’applications.
Le modèle Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0
) peut recevoir jusqu'à 8 192 jetons et produit un vecteur de 1 024 dimensions. Le modèle fonctionne également dans plus de 100 langues différentes. Le modèle est optimisé pour les tâches de récupération de texte, mais peut également effectuer des tâches supplémentaires, telles que la similitude sémantique et le clustering. Amazon Titan Embeddings text v2 prend également en charge les documents longs. Toutefois, pour les tâches de récupération, il est recommandé de segmenter les documents en segments logiques, tels que des paragraphes ou des sections.
Les modèles Amazon Titan Embeddings génèrent une représentation sémantique significative des documents, des paragraphes et des phrases. Amazon Titan Text Embeddings prend en entrée un corps de texte et génère un vecteur à n dimensions. Amazon Titan Text Embeddings est proposé via un appel de point de terminaison optimisé en termes de latence pour une recherche plus rapide (recommandé lors de l'étape de récupération) ainsi que des tâches par lots optimisées en termes de débit pour une indexation plus rapide.
Le modèle Amazon Titan Embedding Text v2 prend en charge les langues suivantes : anglais, allemand, français, espagnol, japonais, chinois, hindi, arabe, italien, portugais, suédois, coréen, hébreu, tchèque, turc, tagalog, russe, néerlandais, polonais, tamoul, marathi, malayalam, télougou, kannada, vietnamien, indonésien, persan, hongrois, grec moderne, roumain, danois, thaï, finnois, slovaque, ukrainien, norvégien, bulgare, catalan, serbe, croate, lituanien, slovène, estonien, latin, bengali, letton, malais, bosniaque, albanais, azerbaïdjanais, galicien, islandais, géorgien, Macédonien, basque, arménien, népalais, ourdou, kazakh, mongol, biélorusse, ouzbek, khmer, norvégien nynorsk, gujarati, birman, gallois, espéranto, cinghalais, tatar, swahili, afrikaans, irlandais, panjabi, kurde, kirghize, tadjik, oriya, laotien, féroïen, maltais, somali, luxembourgeois Amharique, occitan, javanais, haoussa, pachto, sanskrit, frison occidental, malgache, assamais, bachkir, breton, waray (Philippines), turkmène, corse, dhivehi, cebuano, kinyarwanda, haïtien, yiddish, sindhi, zoulou, gaélique écossais, tibétain, ouïghour, maori, romanche, Xhosa, Sundanais, Yoruba.
Note
Les modèles Amazon Titan Text Embeddings v2 et Titan Text Embeddings v1 ne prennent pas en charge les paramètres d'inférence tels que ou. maxTokenCount
topP
Modèle Amazon Titan Text Embeddings V2
ID du modèle :
amazon.titan-embed-text-v2:0
Nombre maximum de jetons de texte d'entrée : 8 192
Langues — Anglais (plus de 100 langues en avant-première)
Taille maximale de l’image d’entrée : 5 Mo
Taille du vecteur de sortie : 1024 (par défaut), 384, 256
Types d’inférence : débit provisionné, à la demande
Cas d'utilisation pris en charge : RAG recherche de documents, reclassement, classification, etc.
Note
Titan Text Embeddings V2 prend en entrée une chaîne non vide contenant jusqu'à 8 192 jetons. Le ratio de caractères par jeton en anglais est de 4,7 caractères par jeton. Bien que Titan Text Embeddings V1 et Titan Text Embeddings V2 puissent accueillir jusqu'à 8 192 jetons, il est recommandé de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).
Pour utiliser les modèles d'intégration de texte ou d'image, utilisez l'Invoke Model
APIopération avec amazon.titan-embed-text-v1
ou en amazon.titan-embed-image-v1
tant que model Id
et récupérez l'objet d'intégration dans la réponse.
Pour voir des exemples de blocs-notes Jupyter :
-
Connectez-vous à la console Amazon Bedrock https://console.aws.amazon.com/bedrock/ chez vous.
-
Dans le menu de gauche, choisissez Modèles de base.
-
Faites défiler la page vers le bas et sélectionnez Amazon Titan Embeddings G1 - TextModèle d'
-
Dans l'Amazon Titan Embeddings G1 - Textonglet (selon le modèle que vous avez choisi), sélectionnez Afficher un exemple de bloc-notes pour voir des exemples de blocs-notes à intégrer.
Pour plus d’informations sur la préparation de votre jeu de données pour l’entraînement multimodal, consultez Préparation de votre jeu de données.