Model Embeddings Teks Amazon Titan - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Model Embeddings Teks Amazon Titan

Model teks Amazon Titan Embeddings termasuk Amazon Text Embeddings v2 dan model Titan Titan Text Embeddings G1.

Penyematan teks mewakili representasi vektor yang bermakna dari teks tidak terstruktur seperti dokumen, paragraf, dan kalimat. Anda memasukkan badan teks dan outputnya adalah vektor (1 x n). Anda dapat menggunakan vektor embedding untuk berbagai macam aplikasi.

Model Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) dapat mengambil hingga 8.192 token dan menghasilkan vektor 1.024 dimensi. Model ini juga berfungsi dalam 100+ bahasa yang berbeda. Model ini dioptimalkan untuk tugas pengambilan teks, tetapi juga dapat melakukan tugas tambahan, seperti kesamaan semantik dan pengelompokan. Amazon Titan Embeddings text v2 juga mendukung dokumen panjang, namun, untuk tugas pengambilan disarankan untuk mengelompokkan dokumen ke dalam segmen logis, seperti paragraf atau bagian.

Model Amazon Titan Embeddings menghasilkan representasi semantik yang bermakna dari dokumen, paragraf, dan kalimat. Amazon Titan Text Embeddings mengambil sebagai masukan isi teks dan menghasilkan vektor n-dimensi. Amazon Titan Text Embeddings ditawarkan melalui pemanggilan titik akhir yang dioptimalkan latensi [link] untuk pencarian yang lebih cepat (direkomendasikan selama langkah pengambilan) serta throughput pekerjaan batch yang dioptimalkan [link] untuk pengindeksan yang lebih cepat.

Model Amazon Titan Embedding Text v2 mendukung bahasa-bahasa berikut: Inggris, Jerman, Prancis, Spanyol, Jepang, Mandarin, Hindi, Arab, Italia, Portugis, Swedia, Korea, Ibrani, Ceko, Turki, Tagalog, Rusia, Belanda, Polandia, Tamil, Marathi, Malayalam, Telugu, Kannada, Vietnam, Indonesia, Persia, Hongaria, Yunani Modern, Rumania, Denmark, Thailand, Finland Ni, Slovakia, Ukraina, Norwegia, Bulgaria, Catalan, Serbia, Kroasia, Lithuania, Slovenia, Estonia, Latin, Bengali, Latvia, Melayu, Bosnia, Albania, Azerbaijan, Galicia, Islandia, Georgia, Makedonia, Basque, Armenia, Nepal, Urdu, Kazakh, Mongolia, Belarusia, Uzbek, Khmer, Nynorsk Norwegia, Gujarati, Burma, Welsh, Esperanto, Sinhala, Tatar, Swahili, Afrikaans, Irlandia, Panjabi, Kurdi, Kirghiz, Tajik, Oriya, Laos, Faroe, Malta, Somalia, Luksemburg, Amharik, Occitan, Jawa, Hausa, Pushto, Sansekerta, Frisia Barat, Malagasi, Assam, Bashkir, Breton, Waray (Filipina), Turkmenistan, Korsika, Dhivehi, Cebuano, Kinyarwanda, Haiti, Yiddish, Sindhi, Zulu, Gaelik Skotlandia, Tibet, Uighur, Maori, Romansh, Xhosa, Sunda, Yoruba.

catatan

Amazon Titan Text Embeddings v2 model dan model Titan Text Embeddings v1 tidak mendukung parameter inferensi seperti atau. maxTokenCount topP

Model Amazon Titan Teks Embeddings V2

  • ID Modelamazon.titan-embed-text-v2:0

  • Token teks masukan maksimum - 8,192

  • Bahasa - Bahasa Inggris (100+ bahasa dalam pratinjau)

  • Ukuran gambar masukan maks - 5 MB

  • Ukuran vektor keluaran - 1,024 (default), 384, 256

  • Jenis inferensi — On-Demand, Throughput yang Disediakan

  • Kasus penggunaan yang didukung —RAG, pencarian dokumen, reranking, klasifikasi, dll.

catatan

Titan Text Embeddings V2 mengambil sebagai input string yang tidak kosong dengan hingga 8.192 token. Rasio karakter terhadap token dalam bahasa Inggris adalah 4,7 karakter per token. Sementara Titan Text Embeddings V1 dan Titan Text Embeddings V2 mampu menampung hingga 8.192 token, disarankan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian).

Untuk menggunakan model penyematan teks atau gambar, gunakan Invoke Model API operasi dengan amazon.titan-embed-text-v1 atau amazon.titan-embed-image-v1 sebagai model Id dan ambil objek penyematan dalam respons.

Untuk melihat contoh notebook Jupyter:

  1. Masuk ke konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock/ rumah.

  2. Dari menu sisi kiri, pilih Model dasar.

  3. Gulir ke bawah dan pilih Titan Embeddings G1 - Text model Amazon

  4. Di Titan Embeddings G1 - Text tab Amazon (tergantung model yang Anda pilih), pilih Lihat contoh buku catatan untuk melihat contoh buku catatan untuk penyematan.

Untuk informasi selengkapnya tentang mempersiapkan kumpulan data Anda untuk pelatihan multimodal, lihat Mempersiapkan kumpulan data Anda.