Titan Multimodal Embeddings G1Amazon-Modell - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Titan Multimodal Embeddings G1Amazon-Modell

Amazon Titan Foundation-Modelle werden anhand großer Datenmengen vorab trainiert, was sie zu leistungsstarken Allzweckmodellen macht. Verwenden Sie sie unverändert oder passen Sie sie an, indem Sie die Modelle mit Ihren eigenen Daten für eine bestimmte Aufgabe optimieren, ohne große Datenmengen mit Anmerkungen zu versehen.

Es gibt drei Arten von Titan-Modellen: Einbettungen, Textgenerierung und Bilderzeugung.

Es gibt zwei Titan Multimodal Embeddings G1 Modelle. Das Modell Titan Multimodal Embeddings G1 übersetzt Texteingaben (Wörter, Phrasen oder möglicherweise große Texteinheiten) in numerische Repräsentationen (sogenannte Einbettungen), die die semantische Bedeutung des Textes enthalten. Dieses Modell generiert zwar keinen Text, ist aber für Anwendungen wie Personalisierung und Suche nützlich. Durch den Vergleich von Einbettungen wird das Modell relevantere und kontextuellere Antworten liefern als beim Wortabgleich. Das G1-Modell für multimodale Einbettungen wird für Anwendungsfälle wie die Suche nach Text, nach Bildern auf Ähnlichkeit oder nach einer Kombination aus Text und Bild verwendet. Es übersetzt das eingegebene Bild oder den eingegebenen Text in eine Einbettung, die die semantische Bedeutung von Bild und Text im selben semantischen Raum enthält.

Titan-Textmodelle sind generativ LLMs für Aufgaben wie Zusammenfassung, Textgenerierung, Klassifizierung, offene QnA und Informationsextraktion. Sie sind auch in vielen verschiedenen Programmiersprachen sowie in Rich-Text-Formaten wie Tabellen und CSV-Dateien und anderen Formaten geschult. JSON

Amazon Titan Multimodal Embeddings Modell G1 — Textmodell

  • Model ID: amazon.titan-embed-image-v1

  • Max. Anzahl der eingegebenen Text-Token: 100

  • Sprachen — Englisch (über 25 Sprachen in der Vorversion)

  • Max. Größe des Eingabebilds: 5 MB

  • Größe des Ausgabevektors: 1.024 (Standard), 384, 256

  • Inferenztypen: Auf Abruf, bereitgestellter Durchsatz

  • Unterstützte Anwendungsfälle — RAG Dokumentensuche, Neueinstufung, Klassifizierung usw.

Titan Text Embeddings V1 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8.192 Tokens und gibt eine 1.024-dimensionale Einbettung zurück. Das Verhältnis von Zeichen zu Token in Englisch beträgt 4,6 Zeichen/Token. Hinweis zu RAG Anwendungsfällen: Titan Text Embeddings V2 kann zwar bis zu 8.192 Token aufnehmen, wir empfehlen jedoch, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu segmentieren.

Einbettungslänge

Das Festlegen einer benutzerdefinierten Einbettungslänge ist optional. Die Standardlänge für die Einbettung beträgt 1024 Zeichen, was für die meisten Anwendungsfälle geeignet ist. Die Einbettungslänge kann auf 256, 384 oder 1024 Zeichen festgelegt werden. Je größer die Einbettung desto detaillierter die Antwort, allerdings erhöht sich dadurch auch die Rechenzeit. Kürzere Einbettungslängen sind weniger detailliert, verbessern aber die Reaktionszeit.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Feinabstimmung

  • Die Eingabe für das Titan Multimodal Embeddings G1 Amazon-Finetuning besteht aus Bild-Text-Paaren.

  • Bildformate:, PNG JPEG

  • Max. Größe des Eingabebilds: 5 MB

  • Bildabmessungen: min: 128 px, max: 4.096 px

  • Maximale Anzahl von Tokens in der Bildunterschrift: 100

  • Größenbereich für Trainingsdatensätze: 1000–500.000

  • Größenbereich des Validierungsdatensatzes: 8–50.000

  • Anzahl der Zeichen in Untertiteln: 0–2.560

  • Maximale Gesamtpixelanzahl pro Bild: 2048*2048*3

  • Seitenverhältnis (B/H): min.: 0,25, max.: 4

Vorbereiten von Datensätzen

Erstellen Sie für den Trainingsdatensatz eine .jsonl Datei mit mehreren JSON Zeilen. Jede JSON Zeile enthält image-ref sowohl ein als auch caption Attribute, die dem Format Sagemaker Augmented Manifest ähneln. Ein Validierungsdatensatz ist erforderlich. Automatische Untertitelung wird derzeit nicht unterstützt.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Sowohl für die Trainings- als auch für die Validierungsdatensätze erstellen Sie .jsonl Dateien mit mehreren Zeilen. JSON

Die Amazon S3 S3-Pfade müssen sich in denselben Ordnern befinden, in denen Sie Amazon Bedrock Berechtigungen für den Zugriff auf die Daten erteilt haben, indem Sie Ihrer Amazon Bedrock-Servicerolle eine IAM Richtlinie anhängen. Weitere Informationen zur Gewährung von IAM Richtlinien für Trainingsdaten finden Sie unter Gewährung von Zugriff auf Ihre Trainingsdaten für benutzerdefinierte Jobs.

Hyperparameter

Diese Werte können für die Hyperparameter des Modells „Multimodale Einbettungen“ angepasst werden. Die Standardwerte eignen sich für die meisten Anwendungsfälle gut.

  • Lernrate – (min/max. Lernrate) – Standard: 5.00E-05, min: 5.00E-08, max: 1

  • Batchgröße – Effektive Batchgröße – Standard: 576, min: 256, max.: 9.216

  • Max. Epochen – Standard: „auto“, min: 1, max: 100