Model Embeddings Teks Amazon Titan

Model Amazon Titan Embeddings termasuk Amazon Text Embeddings V2 dan model Titan Titan Text Embeddings G1.

catatan

Model penyematan di Amazon Bedrock dibatasi oleh Permintaan Per Menit (RPM), bukan Token Per Menit (TPM). Saat merencanakan kapasitas atau meminta peningkatan kuota untuk menyematkan model, gunakan kuota RPM. Untuk informasi selengkapnya, lihat Kuota untuk Amazon Bedrock.

Penyematan teks mewakili representasi vektor yang bermakna dari teks tidak terstruktur seperti dokumen, paragraf, dan kalimat. Anda memasukkan badan teks dan outputnya adalah vektor (1 x n). Anda dapat menggunakan vektor embedding untuk berbagai macam aplikasi.

Model Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) dapat mengambil hingga 8.192 token atau 50.000 karakter dan menghasilkan vektor 1.024 dimensi. Model ini dioptimalkan untuk tugas pengambilan teks, tetapi juga dapat digunakan untuk tugas tambahan, seperti kesamaan semantik dan pengelompokan.

Model Amazon Titan Embeddings menghasilkan representasi semantik yang bermakna dari dokumen, paragraf, dan kalimat. Amazon Titan Text Embeddings mengambil sebagai masukan isi teks dan menghasilkan vektor (1 x n). Amazon Titan Text Embeddings ditawarkan melalui pemanggilan titik akhir yang dioptimalkan latensi untuk menghasilkan vektor pada latensi rendah (direkomendasikan selama langkah pengambilan) serta pekerjaan batch yang dioptimalkan throughput untuk pengindeksan yang lebih cepat. Perhitungan dan pengambilan kesamaan aktual dilakukan oleh database vektor Anda, bukan oleh model penyematan. Amazon Titan Text Embeddings v2 mendukung dokumen panjang, namun untuk tugas pengambilan, disarankan untuk mengelompokkan dokumen ke dalam segmen logis, seperti paragraf atau bagian.

catatan

Amazon Titan Text Embeddings v2 model dan model Titan Text Embeddings v1 tidak mendukung parameter inferensi seperti atau. maxTokenCount topP

Model Amazon Titan Teks Embeddings V2

ID Model — amazon.titan-embed-text-v2:0
Token teks masukan maksimum - 8,192
Karakter teks masukan maksimum - 50.000
Bahasa - Bahasa Inggris (100+ bahasa dalam pratinjau)
Ukuran vektor keluaran - 1,024 (default), 512, 256
Jenis inferensi —, Throughput On-Demand yang Disediakan
Kasus penggunaan yang didukung - RAG, pencarian dokumen, reranking, klasifikasi, dll.

catatan

Titan Text Embeddings V2 mengambil input string yang tidak kosong dengan hingga 8.192 token atau 50.000 karakter. Rasio karakter terhadap token dalam bahasa Inggris rata-rata adalah 4,7 karakter per token. Sementara Titan Text Embeddings V1 dan Titan Text Embeddings V2 mampu menampung hingga 8.192 token, disarankan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian).

Model Amazon Titan Embedding Text v2 dioptimalkan untuk bahasa Inggris, dengan dukungan multibahasa untuk bahasa berikut. Cross-language kueri (seperti menyediakan basis pengetahuan dalam bahasa Korea dan menanyakannya dalam bahasa Jerman) akan mengembalikan hasil yang kurang optimal.

Afrikaans
bahasa Albania
Amharik
Arab
Orang Armenia
orang Assam
Orang Azerbaijan
Bashkir
Basque
Belarusia
Bengali
Orang Bosnia
Breton
Bulgaria
Burma
bahasa katala
Cebuano
Mandarin
Korsika
orang Kroasia
Bahasa Ceko
Orang Denmark
Dhivehi
Bahasa Belanda
Bahasa Inggris
Esperanto
Estonia
Faroe
orang Finlandia
Prancis
Galicia
Orang Georgia
Bahasa Jerman
Gujarat
Haiti
Hausa
Ibrani
bahasa Hindi
Bahasa Hungaria
Islandia
orang Indonesia
orang Irlandia
Bahasa Italia
Bahasa Jepang
Orang Jawa
Kannada
Kazakh
Khmer
Kinyarwanda
Kirghiz
Bahasa Korea
bahasa Kurdi
Lao
bahasa Latin
Latvia
Lituania
Luksemburg
Makedonia
Malagasi
Melayu
Malayalam
Malta
Maori
Marathi
Yunani modern
Mongolia
Nepal
Norwegia
Nynorsk Norwegia
Occitan
Oriya
Panjabi
Persia
Polandia
Bahasa Portugis
Pushto
Rumania
Romansh
Bahasa Rusia
Sansekerta
Gaelik Skotlandia
Serbia
Sindhi
Sinhala
Orang Slovakia
Bahasa Slovenia
Somalia
Bahasa Spanyol
Sunda
Swahili
Bahasa Swedia
Tagalog
Tajik
Tamil
Tatar
Telugu
Thai
Tibet
Turki
Turkmenistan
Uighur
orang Ukraina
Urdu
Uzbek
Vietnam
Waray
Welsh
Frisia Barat
Xhosa
Bahasa Yiddish
Yoruba
Zulu

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Model Amazon Titan

Embeddings Multimodal G1