Amazon-Titan-Embeddings-Textmodelle - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon-Titan-Embeddings-Textmodelle

Zu den Textmodellen von Amazon Titan Embeddings gehören das Modell Amazon Titan Text Embeddings v2 und das Modell Titan Text Embeddings G1.

Texteinbettungen stellen aussagekräftige Vektordarstellungen von unstrukturiertem Text wie Dokumente, Absätze und Sätze dar. Sie geben einen Text ein und die Ausgabe ist ein (1 x n)-Vektor. Sie können Einbettungsvektoren für eine Vielzahl von Anwendungen verwenden.

Das Amazon Titan Text Embedding v2-Modell (amazon.titan-embed-text-v2:0) kann bis zu 8.192 Token aufnehmen und gibt einen Vektor mit 1.024 Dimensionen aus. Das Modell funktioniert auch in über 100 verschiedenen Sprachen. Das Modell ist für Aufgaben zum Abrufen von Text optimiert, kann aber auch zusätzliche Aufgaben wie semantische Ähnlichkeit und Clustering ausführen. Amazon Titan Embeddings Text v2 unterstützt auch lange Dokumente. Für Abruftasks wird jedoch empfohlen, Dokumente in logische Segmente wie Absätze oder Abschnitte zu segmentieren.

Die Modelle von Amazon Titan Embeddings erzeugen eine aussagekräftige semantische Darstellung von Dokumenten, Absätzen und Sätzen. Amazon Titan Text Embeddings verwendet als Eingabe einen Textkörper und generiert einen n-dimensionalen Vektor. Amazon Titan Text Embeddings wird über einen latenzoptimierten Endpunktaufruf [Link] für eine schnellere Suche (empfohlen während des Abrufs) sowie über durchsatzoptimierte Batch-Jobs [Link] für eine schnellere Indizierung angeboten.

Das Amazon Titan Embedding Text v2-Modell unterstützt die folgenden Sprachen: Englisch, Deutsch, Französisch, Spanisch, Japanisch, Chinesisch, Hindi, Arabisch, Italienisch, Portugiesisch, Schwedisch, Koreanisch, Hebräisch, Tschechisch, Türkisch, Tagalog, Russisch, Niederländisch, Polnisch, Tamil, Marathi, Malayalam, Telugu, Kannada, Vietnamesisch, Indonesisch, Persisch, Ungarisch, Neugriechisch, Rumänisch, Dänisch, Thailändisch, Finnisch, Slowakisch, Ukrainisch, Norwegisch, Bulgarisch, Katalanisch, Serbisch, Kroatisch, Litauisch, Slowenisch, Estnisch, Latein, Bengalisch, Lettisch, Malaiisch, Bosnisch, Albanisch, Aserbaidschanisch, Galizisch, Isländisch, Georgisch, Mazedonisch, Baskisch, Armenisch, Nepali, Urdu, Kasachisch, Mongolisch, Belarussisch, Usbekisch, Khmer, Norwegisch Nynorsk, Gujarati, Burmesisch, Walisisch, Esperanto, Singhalesisch, Tatarisch, Suaheli, Afrikaans, Irisch, Panjabi, Kurdisch, Kirgisisch, Tadschikisch, Oriya, Laotisch, Färöisch, Maltesisch, Somländisch Alisch, Luxemburgisch, Amharisch, Okzitanisch, Javanisch, Hausa, Puschto, Sanskrit, Westfriesisch, Madagassisch, Assamesisch, Baschkirisch, Bretonisch, Waray (Philippinen), Turkmenisch, Korsisch, Dhivehi, Cebuano, Kinyarwanda, Haitianisch, Jiddisch, Sindhi, Zulu, Schottisch-Gälisch, Tibetisch, Uigurisch, Maori, Rätoromanisch, Xhosa, Sundanesisch, Yoruba.

Anmerkung

Das Modell Amazon Titan Text Embeddings v2 und das Modell Titan Text Embeddings v1 unterstützen keine Inferenzparameter wie oder. maxTokenCount topP

Modell Amazon Titan Text Embeddings V2

  • Model ID: amazon.titan-embed-text-v2:0

  • Max. Anzahl eingegebener Text-Token — 8.192

  • Sprachen — Englisch (über 100 Sprachen in der Vorversion)

  • Max. Größe des Eingabebilds: 5 MB

  • Größe des Ausgabevektors: 1.024 (Standard), 384, 256

  • Inferenztypen: Auf Abruf, bereitgestellter Durchsatz

  • Unterstützte Anwendungsfälle — RAG Dokumentensuche, Neueinstufung, Klassifizierung usw.

Anmerkung

Titan Text Embeddings V2 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8.192 Tokens. Das Verhältnis von Zeichen zu Token in Englisch beträgt 4,7 Zeichen pro Token. Titan Text Embeddings V1 und Titan Text Embeddings V2 können zwar bis zu 8.192 Token aufnehmen, es wird jedoch empfohlen, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu segmentieren.

Um die Modelle für Text- oder Bildeinbettungen zu verwenden, verwenden Sie die Invoke Model API Operation mit amazon.titan-embed-text-v1 oder amazon.titan-embed-image-v1 als model Id und rufen Sie das Einbettungsobjekt in der Antwort ab.

So können Sie sich Beispiele für Jupyter Notebooks ansehen:

  1. Melden Sie sich zu https://console.aws.amazon.com/bedrock/ Hause bei der Amazon Bedrock-Konsole an.

  2. Wählen Sie im Menü auf der linken Seite die Option Basismodelle aus.

  3. Scrollen Sie nach unten und wählen Sie das Titan Embeddings G1 - TextAmazon-Modell aus

  4. Wählen Sie auf der Titan Embeddings G1 - Text Registerkarte Amazon (je nachdem, welches Modell Sie ausgewählt haben) die Option Beispielnotizbuch anzeigen aus, um Beispielnotizbücher für Einbettungen anzuzeigen.

Weitere Informationen zur Vorbereitung Ihres Datensatzes für das multimodale Training finden Sie unter Vorbereiten Ihres Datensatzes.