Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon Titan Multimodal Embeddings G1 model
Amazon Titan Foundation Model telah dilatih sebelumnya pada kumpulan data besar, menjadikannya model yang kuat dan serba guna. Gunakan apa adanya, atau sesuaikan dengan menyempurnakan model dengan data Anda sendiri untuk tugas tertentu tanpa membuat anotasi volume data yang besar.
Ada tiga jenis model Titan: embeddings, pembuatan teks, dan pembuatan gambar.
Ada dua Titan Multimodal Embeddings G1 model. Model Titan Multimodal Embeddings G1 menerjemahkan input teks (kata, frasa atau mungkin satuan teks yang besar) ke dalam representasi numerik (dikenal sebagai embeddings) yang berisi makna semantik teks. Meskipun model ini tidak akan menghasilkan teks, ini berguna untuk aplikasi seperti personalisasi dan pencarian. Dengan membandingkan embeddings, model akan menghasilkan respons yang lebih relevan dan kontekstual daripada pencocokan kata. Model Multimodal Embeddings G1 digunakan untuk kasus penggunaan seperti mencari gambar berdasarkan teks, dengan gambar untuk kesamaan, atau dengan kombinasi teks dan gambar. Ini menerjemahkan gambar input atau teks ke dalam embedding yang berisi makna semantik dari gambar dan teks dalam ruang semantik yang sama.
Model Titan Text bersifat generatif LLMs untuk tugas-tugas seperti ringkasan, pembuatan teks, klasifikasi, qnA terbuka, dan ekstraksi informasi. Mereka juga dilatih pada banyak bahasa pemrograman yang berbeda, serta format teks kaya seperti tabel,JSON, dan file.csv, di antara format lainnya.
Amazon Titan Multimodal Embeddings model G1 - Model teks
ID Model —
amazon.titan-embed-image-v1
Token teks masukan maksimum - 256
Bahasa — Bahasa Inggris
Ukuran gambar masukan maks - 25 MB
Ukuran vektor keluaran - 1,024 (default), 384, 256
Jenis inferensi — On-Demand, Throughput yang Disediakan
Kasus penggunaan yang didukung — Pencarian, rekomendasi, dan personalisasi.
Titan Text Embeddings V1 mengambil sebagai input string yang tidak kosong dengan hingga 8.192 token dan mengembalikan penyematan 1.024 dimensi. Rasio karakter terhadap token dalam bahasa Inggris adalah 4.6 char/token. Catatan tentang kasus RAG penggunaan: Meskipun Titan Text Embeddings V2 mampu mengakomodasi hingga 8.192 token, kami merekomendasikan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian).
Panjang penyematan
Menyetel panjang penyematan khusus adalah opsional. Panjang default penyematan adalah 1024 karakter yang akan berfungsi untuk sebagian besar kasus penggunaan. Panjang embedding dapat diatur ke 256, 384, atau 1024 karakter. Ukuran penyematan yang lebih besar menciptakan respons yang lebih rinci, tetapi juga akan meningkatkan waktu komputasi. Panjang penyematan yang lebih pendek kurang detail tetapi akan meningkatkan waktu respons.
# EmbeddingConfig Shape { 'outputEmbeddingLength':
int
// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Finetuning
Masukan ke Amazon Titan Multimodal Embeddings G1 finetuning adalah pasangan gambar-teks.
Format gambar:PNG, JPEG
Batas ukuran gambar masukan: 25 MB
Dimensi gambar: min: 256 px, maks: 4.096 px
Jumlah maksimum token dalam keterangan: 128
Rentang ukuran kumpulan data pelatihan: 1000 - 500.000
Rentang ukuran dataset validasi: 8 - 50.000
Panjang keterangan dalam karakter: 0 - 2.560
Total piksel maksimum per gambar: 2048* 2048* 3
Rasio aspek (w/jam): min: 0,25, maks: 4
Mempersiapkan dataset
Untuk dataset pelatihan, buat .jsonl
file dengan beberapa JSON baris. Setiap JSON baris berisi caption
atribut image-ref
dan atribut yang mirip dengan format Sagemaker Augmented Manifest. Diperlukan kumpulan data validasi. Teks otomatis saat ini tidak didukung.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Untuk kumpulan data pelatihan dan validasi, Anda akan membuat .jsonl
file dengan beberapa baris. JSON
Jalur Amazon S3 harus berada di folder yang sama di mana Anda telah memberikan izin bagi Amazon Bedrock untuk mengakses data dengan melampirkan kebijakan IAM ke peran layanan Amazon Bedrock Anda. Untuk informasi selengkapnya tentang pemberian IAM kebijakan untuk data pelatihan, lihat Memberikan akses lowongan khusus ke data pelatihan Anda.
Hyperparameter
Nilai-nilai ini dapat disesuaikan untuk hiperparameter model Multimodal Embeddings. Nilai default akan berfungsi dengan baik untuk sebagian besar kasus penggunaan.
-
Tingkat pembelajaran - (tingkat pembelajaran min/maks) - default: 5.00E-05, min: 5.00E-08, maks: 1
-
Ukuran batch - Ukuran batch efektif - default: 576, min: 256, maks: 9.216
-
Epoch maks - default: “auto”, min: 1, maks: 100