Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon-Titan-Embeddings-Textmodelle
Amazon Titan Zu den Einbettungsmodellen gehört Amazon Titan Modell Text Embeddings v2 und Titan Text Embeddings G1.
Texteinbettungen stellen aussagekräftige Vektordarstellungen von unstrukturiertem Text wie Dokumente, Absätze und Sätze dar. Sie geben einen Text ein und die Ausgabe ist ein (1 x n)-Vektor. Sie können Einbettungsvektoren für eine Vielzahl von Anwendungen verwenden.
Das Amazon Titan Text Embedding v2-Modell (amazon.titan-embed-text-v2:0
) kann bis zu 8.192 Token aufnehmen und gibt einen Vektor mit 1.024 Dimensionen aus. Das Modell ist für Aufgaben zum Abrufen von Text optimiert, kann aber auch für zusätzliche Aufgaben wie semantische Ähnlichkeit und Clustering optimiert werden.
Die Modelle von Amazon Titan Embeddings erzeugen eine aussagekräftige semantische Darstellung von Dokumenten, Absätzen und Sätzen. Amazon Titan Text Embeddings verwendet als Eingabe einen Textkörper und generiert einen (1 x n) Vektor. Amazon Titan Text Embeddings wird über einen latenzoptimierten Endpunktaufruf für eine schnellere Suche (empfohlen während des Abrufs) sowie über durchsatzoptimierte Batch-Jobs für eine schnellere Indizierung angeboten. Amazon Titan Text Embeddings v2 unterstützt lange Dokumente. Für Abruftasks wird jedoch empfohlen, Dokumente in logische Segmente wie Absätze oder Abschnitte zu segmentieren.
Anmerkung
Das Modell Amazon Titan Text Embeddings v2 und das Modell Titan Text Embeddings v1 unterstützen keine Inferenzparameter wie oder. maxTokenCount
topP
Modell Amazon Titan Text Embeddings V2
Model ID:
amazon.titan-embed-text-v2:0
Max. Anzahl eingegebener Text-Token — 8.192
Sprachen — Englisch (über 100 Sprachen in der Vorversion)
Größe des Ausgabevektors — 1.024 (Standard), 512, 256
Inferenztypen: Auf Abruf bereitgestellter Durchsatz
Unterstützte Anwendungsfälle — RAG, Dokumentensuche, Neueinstufung, Klassifizierung usw.
Anmerkung
Titan Text Embeddings V2 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8.192 Tokens. Das Verhältnis von Zeichen zu Token in Englisch beträgt durchschnittlich 4,7 Zeichen pro Token. Titan Text Embeddings V1 und Titan Text Embeddings V2 können zwar bis zu 8.192 Token aufnehmen, es wird jedoch empfohlen, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu segmentieren.
Das Amazon Titan Embedding Text v2-Modell unterstützt die folgenden Sprachen:
Afrikaans
Albanisch
Amharisch
Arabisch
Armenisch
Assamesisch
Aserbaidschanisch
Baschkirisch
Baskisch
Belarussisch
Bengalisch
Bosnisch
Bretonisch
Bulgarisch
birmanisch
Katalanisch
Cebuano
Chinesisch
Korsisch
Kroatisch
Tschechisch
Dänisch
Dhivehi
Niederländisch
Englisch
Esperanto
Estnisch
Färöisch
Finnisch
Französisch
Galizisch
Georgisch
Deutsch
Gujarati
Haitianer
Hausa
Hebräisch
Hindi
Ungarisch
Isländisch
Indonesisch
irisch
Italienisch
Japanisch
javanesisch
Kannada
Kasachisch
Khmer
Kinyarwanda
Kirgisisch
Koreanisch
kurdisch
Laotisch
Latein
Lettisch
Litauisch
Luxemburgisch
Mazedonisch
madagassisch
Malaiisch
Malayalam
Maltesisch
Maori
Marathi
Neugriechisch
Mongolisch
Nepalesisch
Norwegisch
Norwegisch Nynorsk
Okzitanisch
Oriya
Panjabi
Persisch
Polnisch
Portugiesisch
Drücken Sie nach
Rumänisch
Rätoromanisch
Russisch
Sanskrit
Schottisch-Gälisch
Serbisch
Sindhi
Singhalesisch
Slowakisch
Slowenisch
Somali
Spanisch
Sundanesisch
Swahili
Schwedisch
Tagalog
Tadschikisch
Tamil
Tatarisch
Telugu
Thailändisch
tibetisch
Türkisch
Turkmenisch
Uigurisch
Ukrainisch
Urdu
Usbekisch
Vietnamesisch
Waray
Walisisch
Westfriesisch
Xhosa
Jiddisch
Yoruba
Zulu