Modèles Amazon Titan Text Embeddings - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèles Amazon Titan Text Embeddings

Les modèles de texte Amazon Titan Embeddings incluent Amazon Text Embeddings v2 et Titan le modèle Titan Text Embeddings G1.

Les intégrations de texte constituent des représentations vectorielles significatives de texte non structuré telles que des documents, des paragraphes et des phrases. Vous entrez un corps de texte, et la sortie est un vecteur (1 x n). Vous pouvez utiliser les vecteurs d’intégration dans une grande variété d’applications.

Le modèle Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) peut recevoir jusqu'à 8 192 jetons et produit un vecteur de 1 024 dimensions. Le modèle fonctionne également dans plus de 100 langues différentes. Le modèle est optimisé pour les tâches de récupération de texte, mais peut également effectuer des tâches supplémentaires, telles que la similitude sémantique et le clustering. Amazon Titan Embeddings text v2 prend également en charge les documents longs. Toutefois, pour les tâches de récupération, il est recommandé de segmenter les documents en segments logiques, tels que des paragraphes ou des sections.

Les modèles Amazon Titan Embeddings génèrent une représentation sémantique significative des documents, des paragraphes et des phrases. Amazon Titan Text Embeddings prend en entrée un corps de texte et génère un vecteur à n dimensions. Amazon Titan Text Embeddings est proposé via un appel de point de terminaison optimisé en termes de latence [lien] pour une recherche plus rapide (recommandé lors de l'étape de récupération) ainsi que des tâches par lots optimisées en termes de débit [lien] pour une indexation plus rapide.

Le modèle Amazon Titan Embedding Text v2 prend en charge les langues suivantes : anglais, allemand, français, espagnol, japonais, chinois, hindi, arabe, italien, portugais, suédois, coréen, hébreu, tchèque, turc, tagalog, russe, néerlandais, polonais, tamoul, marathi, malayalam, télougou, kannada, vietnamien, indonésien, persan, hongrois, grec moderne, roumain, danois, thaï, finnois, slovaque, ukrainien, norvégien, bulgare, catalan, serbe, croate, lituanien, slovène, estonien, latin, bengali, letton, malais, bosniaque, albanais, azerbaïdjanais, galicien, islandais, géorgien, Macédonien, basque, arménien, népalais, ourdou, kazakh, mongol, biélorusse, ouzbek, khmer, norvégien nynorsk, gujarati, birman, gallois, espéranto, cinghalais, tatar, swahili, afrikaans, irlandais, panjabi, kurde, kirghize, tadjik, oriya, laotien, féroïen, maltais, somali, luxembourgeois Amharique, occitan, javanais, haoussa, pachto, sanskrit, frison occidental, malgache, assamais, bachkir, breton, waray (Philippines), turkmène, corse, dhivehi, cebuano, kinyarwanda, haïtien, yiddish, sindhi, zoulou, gaélique écossais, tibétain, ouïghour, maori, romanche, Xhosa, Sundanais, Yoruba.

Note

Les modèles Amazon Titan Text Embeddings v2 et Titan Text Embeddings v1 ne prennent pas en charge les paramètres d'inférence tels que ou. maxTokenCount topP

Modèle Amazon Titan Text Embeddings V2

  • ID du modèle : amazon.titan-embed-text-v2:0

  • Nombre maximum de jetons de texte d'entrée : 8 192

  • Langues — Anglais (plus de 100 langues en avant-première)

  • Taille maximale de l’image d’entrée : 5 Mo

  • Taille du vecteur de sortie : 1024 (par défaut), 384, 256

  • Types d’inférence : débit provisionné, à la demande

  • Cas d'utilisation pris en charge : RAG recherche de documents, reclassement, classification, etc.

Note

Titan Text Embeddings V2 prend en entrée une chaîne non vide contenant jusqu'à 8 192 jetons. Le ratio de caractères par jeton en anglais est de 4,7 caractères par jeton. Bien que Titan Text Embeddings V1 et Titan Text Embeddings V2 puissent accueillir jusqu'à 8 192 jetons, il est recommandé de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).

Pour utiliser les modèles d'intégration de texte ou d'image, utilisez l'Invoke ModelAPIopération avec amazon.titan-embed-text-v1 ou en amazon.titan-embed-image-v1 tant que model Id et récupérez l'objet d'intégration dans la réponse.

Pour voir des exemples de blocs-notes Jupyter :

  1. Connectez-vous à la console Amazon Bedrock https://console.aws.amazon.com/bedrock/ chez vous.

  2. Dans le menu de gauche, choisissez Modèles de base.

  3. Faites défiler la page vers le bas et sélectionnez le Titan Embeddings G1 - Text modèle Amazon

  4. Dans l'Titan Embeddings G1 - Textonglet Amazon (selon le modèle que vous avez choisi), sélectionnez Afficher un exemple de carnet pour voir des exemples de blocs-notes à intégrer.

Pour plus d’informations sur la préparation de votre jeu de données pour l’entraînement multimodal, consultez Préparation de votre jeu de données.