Titan Multimodal Embeddings G1Modèle Amazon - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Titan Multimodal Embeddings G1Modèle Amazon

Les modèles Amazon Titan Foundation sont préentraînés sur de grands ensembles de données, ce qui en fait de puissants modèles polyvalents. Utilisez-les tels quels ou personnalisez-les en ajustant les modèles avec vos propres données pour une tâche particulière sans annoter de gros volumes de données.

Il existe trois types de modèles Titan : les intégrations, la génération de texte et la génération d'images.

Il existe deux Titan Multimodal Embeddings G1 modèles. Le modèle Titan Multimodal Embeddings G1 traduit les entrées de texte (mots, phrases ou éventuellement de grandes unités de texte) en représentations numériques (appelées intégrations) qui contiennent le sens sémantique du texte. Bien que ce modèle ne génère pas de texte, il est utile pour les applications telles que la personnalisation et la recherche. En comparant les intégrations, le modèle produira des réponses plus pertinentes et contextuelles que la correspondance de mots. Le modèle Multimodal Embeddings G1 est utilisé dans des cas d'utilisation tels que la recherche d'images par texte, par image pour des similitudes ou par une combinaison de texte et d'image. Il traduit l'image ou le texte d'entrée en une intégration qui contient la signification sémantique de l'image et du texte dans le même espace sémantique.

Les modèles Titan Text sont génératifs LLMs pour des tâches telles que la synthèse, la génération de texte, la classification, le QnA ouvert et l'extraction d'informations. Ils sont également formés à de nombreux langages de programmation différents, ainsi qu'aux formats de texte enrichi tels que les tableaux et les fichiers .csv, entre autres formats. JSON

Amazon Titan Multimodal Embeddings modèle G1 - Modèle texte

  • ID du modèle : amazon.titan-embed-image-v1

  • Nombre maximum de jetons de texte d'entrée : 100

  • Langues — Anglais (plus de 25 langues en avant-première)

  • Taille maximale de l’image d’entrée : 5 Mo

  • Taille du vecteur de sortie : 1024 (par défaut), 384, 256

  • Types d’inférence : débit provisionné, à la demande

  • Cas d'utilisation pris en charge : RAG recherche de documents, reclassement, classification, etc.

Titan Text Embeddings V1 prend en entrée une chaîne non vide contenant jusqu'à 8 192 jetons et renvoie une intégration de 1 024 dimensions. Le ratio de caractères par jeton en anglais est de 4,6 chars/jeton. Remarque sur les cas d'RAGutilisation : Titan Text Embeddings V2 peut accueillir jusqu'à 8 192 jetons, mais nous recommandons de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).

Longueur d’intégration

La définition d’une longueur d’intégration personnalisée est facultative. La longueur d’intégration par défaut est de 1024 caractères, ce qui convient à la plupart des cas d’utilisation. La longueur d’intégration peut être définie sur 256, 384 ou 1024 caractères. Des tailles d’intégration plus importantes créent des réponses plus détaillées, mais augmentent également le temps de calcul. Des longueurs d’intégration plus courtes fournissent moins de détails mais améliorent le temps de réponse.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Affinement

  • Les paires image-texte sont entrées pour le Titan Multimodal Embeddings G1 réglage précis d'Amazon.

  • Formats d'image :PNG, JPEG

  • Limite de taille de l’image d’entrée : 5 Mo

  • Dimensions de l’image : min : 128 px, max : 4 096 px

  • Nombre maximum de jetons dans la légende : 100

  • Plage de tailles du jeu de données d’entraînement : 1000 à 500 000

  • Plage de tailles du jeu de données de validation : 8 à 50 000

  • Longueur de la légende en caractères : 0 à 2 560

  • Nombre total maximal de pixels par image : 2048*2048*3

  • Rapport hauteur/largeur : min : 0,25, max : 4

Préparation des jeux de données

Pour le jeu de données d'entraînement, créez un .jsonl fichier comportant plusieurs JSON lignes. Chaque JSON ligne contient à la fois un image-ref et des caption attributs similaires au format Sagemaker Augmented Manifest. Un jeu de données de validation est requis. Le sous-titrage automatique n’est actuellement pas pris en charge.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Pour les ensembles de données de formation et de validation, vous allez créer des .jsonl fichiers comportant plusieurs JSON lignes.

Les chemins Amazon S3 doivent se trouver dans les mêmes dossiers dans lesquels vous avez autorisé Amazon Bedrock à accéder aux données en joignant une IAM politique à votre rôle de service Amazon Bedrock. Pour plus d'informations sur l'octroi de IAM politiques relatives aux données de formation, voir Accorder à des tâches personnalisées l'accès à vos données de formation.

Hyperparamètres

Ces valeurs peuvent être ajustées pour les hyperparamètres du modèle Multimodal Embeddings. Les valeurs par défaut conviendront à la plupart des cas d’utilisation.

  • Taux d’apprentissage (taux d’apprentissage min/max) : par défaut : 5,00E-05, min : 5,00E-08, max : 1

  • Taille de lot – Taille de lot effective : par défaut : 576, min : 256, max : 9 216

  • Nombre maximal d’époques : par défaut : « auto », min : 1, max : 100