View a markdown version of this page

Amazon-Titan-Embeddings-Textmodelle - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon-Titan-Embeddings-Textmodelle

Zu den Modellen von Amazon Titan Embeddings gehören Amazon Titan Text Embeddings V2 und Titan Text Embeddings G1.

Anmerkung

Das Einbetten von Modellen auf Amazon Bedrock wird durch Anfragen pro Minute (RPM) gedrosselt, nicht durch Tokens pro Minute (TPM). Verwenden Sie das RPM-Kontingent, wenn Sie Kapazität planen oder Kontingenterhöhungen für das Einbetten von Modellen anfordern. Weitere Informationen finden Sie unter Kontingente für Amazon Bedrock.

Texteinbettungen stellen aussagekräftige Vektordarstellungen von unstrukturiertem Text wie Dokumente, Absätze und Sätze dar. Sie geben einen Text ein und die Ausgabe ist ein (1 x n)-Vektor. Sie können Einbettungsvektoren für eine Vielzahl von Anwendungen verwenden.

Das Modell „Amazon Titan Text Embeddings v2“ (amazon.titan-embed-text-v2:0) kann bis zu 8 192 Token oder 50 000 Zeichen aufnehmen und gibt einen Vektor mit 1 024 Dimensionen aus. Das Modell ist für Aufgaben zum Abrufen von Text optimiert, kann aber auch für zusätzliche Aufgaben wie semantische Ähnlichkeit und Clustering verwendet werden.

Die Modelle von Amazon Titan Embeddings erzeugen eine aussagekräftige semantische Darstellung von Dokumenten, Absätzen und Sätzen. Amazon Titan Text Embeddings verwendet einen Text als Eingabe und generiert einen Vektor (1 x n). Amazon Titan Text Embeddings wird über latenzoptimierten Endpunktaufruf zur Generierung von Vektoren mit niedriger Latenz (empfohlen während des Abrufs) sowie über durchsatzoptimierte Batch-Jobs für eine schnellere Indizierung angeboten. Die tatsächliche Ähnlichkeitsberechnung und der Abruf werden von Ihrer Vektordatenbank durchgeführt, nicht vom Einbettungsmodell. Amazon Titan Text Embeddings v2 unterstützt auch lange Dokumente. Für Abrufaufgaben wird jedoch empfohlen, Dokumente in logische Segmente wie Absätze oder Abschnitte zu unterteilen.

Anmerkung

Das Modell „Amazon Titan Text Embeddings v2“ und das Modell „Titan Text Embeddings v1“ unterstützen keine Inferenzparameter wie maxTokenCount oder topP.

Modell „Amazon Titan Text Embeddings V2“

  • Modell-ID – amazon.titan-embed-text-v2:0

  • Max. Anzahl der eingegebenen Text-Token – 8,192

  • Max. Eingabezeichen – 50 000

  • Sprachen – Englisch, (über 100 weitere Sprachen in der Vorschau)

  • Größe des Ausgabevektors — 1.024 (Standard), 512, 256

  • Inferenztypen – Auf Abruf bereitgestellter Durchsatz

  • Unterstützte Anwendungsfälle – RAG, Dokumentensuche, Neueinstufung, Klassifizierung usw.

Anmerkung

Titan Text Embeddings V2 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8 192 Token oder 50 000 Zeichen. Das Verhältnis von Zeichen zu Token beträgt im Englischen durchschnittlich 4,7 Zeichen pro Token. Titan Text Embeddings V1 und Titan Text Embeddings V2 können bis zu 8 192 Token aufnehmen. Es wird jedoch empfohlen, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu unterteilen.

Das Modell „Amazon Titan Embedding Text v2“ ist für Englisch optimiert. Mehrsprachige Unterstützung für die folgenden Sprachen ist enthalten. Sprachübergreifende Abfragen (z. B. die Bereitstellung einer Wissensdatenbank auf Koreanisch und deren Abfrage auf Deutsch) führen zu suboptimalen Ergebnissen.

  • Afrikaans

  • Albanisch

  • Amharisch

  • Arabisch

  • Armenisch

  • Assamesisch

  • Aserbaidschanisch

  • Baschkirisch

  • Baskisch

  • Belarussisch

  • Bengalisch

  • Bosnisch

  • Bretonisch

  • Bulgarisch

  • birmanisch

  • Katalanisch

  • Cebuano

  • Chinesisch

  • Korsisch

  • Kroatisch

  • Tschechisch

  • Dänisch

  • Dhivehi

  • Niederländisch

  • Englisch

  • Esperanto

  • Estnisch

  • Färöisch

  • Finnisch

  • Französisch

  • Galizisch

  • Georgisch

  • Deutsch

  • Gujarati

  • Haitisch

  • Hausa

  • Hebräisch

  • Hindi

  • Ungarisch

  • Isländisch

  • Indonesisch

  • Irisch

  • Italienisch

  • Japanisch

  • Javanesisch

  • Kannada

  • Kasachisch

  • Khmer

  • Kinyarwanda

  • Kirgisisch

  • Koreanisch

  • Kurdisch

  • Laotisch

  • Latein

  • Lettisch

  • Litauisch

  • Luxemburgisch

  • Mazedonisch

  • Madagassisch

  • Malaiisch

  • Malayalam

  • Maltesisch

  • Maori

  • Marathi

  • Neugriechisch

  • Mongolisch

  • Nepali

  • Norwegisch

  • Norwegisch Nynorsk

  • Okzitanisch

  • Oriya

  • Panjabi

  • Persisch

  • Polnisch

  • Portugiesisch

  • Pushto

  • Rumänisch

  • Rätoromanisch

  • Russisch

  • Sanskrit

  • Schottisch-Gälisch

  • Serbisch

  • Sindhi

  • Singhalesisch

  • Slowakisch

  • Slowenisch

  • Somali

  • Spanisch

  • Sundanesisch

  • Swahili

  • Schwedisch

  • Tagalog

  • Tadschikisch

  • Tamil

  • Tatarisch

  • Telugu

  • Thailändisch

  • Tibetisch

  • Türkisch

  • Turkmenisch

  • Uigurisch

  • Ukrainisch

  • Urdu

  • Usbekisch

  • Vietnamesisch

  • Waray

  • Walisisch

  • Westfriesisches

  • Xhosa

  • Jiddisch

  • Yoruba

  • Zulu