Amazon Titan Multimodal Embeddings G1 model - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon Titan Multimodal Embeddings G1 model

Amazon Titan Foundation Model telah dilatih sebelumnya pada kumpulan data besar, menjadikannya model yang kuat dan serba guna. Gunakan apa adanya, atau sesuaikan dengan menyempurnakan model dengan data Anda sendiri untuk tugas tertentu tanpa membuat anotasi volume data yang besar.

Ada tiga jenis model Titan: embeddings, pembuatan teks, dan pembuatan gambar.

Ada dua Titan Multimodal Embeddings G1 model. Model Titan Multimodal Embeddings G1 menerjemahkan input teks (kata, frasa atau mungkin satuan teks yang besar) ke dalam representasi numerik (dikenal sebagai embeddings) yang berisi makna semantik teks. Meskipun model ini tidak akan menghasilkan teks, ini berguna untuk aplikasi seperti personalisasi dan pencarian. Dengan membandingkan embeddings, model akan menghasilkan respons yang lebih relevan dan kontekstual daripada pencocokan kata. Model Multimodal Embeddings G1 digunakan untuk kasus penggunaan seperti mencari gambar berdasarkan teks, dengan gambar untuk kesamaan, atau dengan kombinasi teks dan gambar. Ini menerjemahkan gambar input atau teks ke dalam embedding yang berisi makna semantik dari gambar dan teks dalam ruang semantik yang sama.

Model Titan Text bersifat generatif LLMs untuk tugas-tugas seperti ringkasan, pembuatan teks, klasifikasi, qnA terbuka, dan ekstraksi informasi. Mereka juga dilatih pada banyak bahasa pemrograman yang berbeda, serta format teks kaya seperti tabel,JSON, dan file.csv, di antara format lainnya.

Amazon Titan Multimodal Embeddings model G1 - Model teks

  • ID Modelamazon.titan-embed-image-v1

  • Token teks masukan maksimum - 256

  • Bahasa — Bahasa Inggris

  • Ukuran gambar masukan maks - 25 MB

  • Ukuran vektor keluaran - 1,024 (default), 384, 256

  • Jenis inferensi — On-Demand, Throughput yang Disediakan

  • Kasus penggunaan yang didukung — Pencarian, rekomendasi, dan personalisasi.

Titan Text Embeddings V1 mengambil sebagai input string yang tidak kosong dengan hingga 8.192 token dan mengembalikan penyematan 1.024 dimensi. Rasio karakter terhadap token dalam bahasa Inggris adalah 4.6 char/token. Catatan tentang kasus RAG penggunaan: Meskipun Titan Text Embeddings V2 mampu mengakomodasi hingga 8.192 token, kami merekomendasikan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian).

Panjang penyematan

Menyetel panjang penyematan khusus adalah opsional. Panjang default penyematan adalah 1024 karakter yang akan berfungsi untuk sebagian besar kasus penggunaan. Panjang embedding dapat diatur ke 256, 384, atau 1024 karakter. Ukuran penyematan yang lebih besar menciptakan respons yang lebih rinci, tetapi juga akan meningkatkan waktu komputasi. Panjang penyematan yang lebih pendek kurang detail tetapi akan meningkatkan waktu respons.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Finetuning

  • Masukan ke Amazon Titan Multimodal Embeddings G1 finetuning adalah pasangan gambar-teks.

  • Format gambar:PNG, JPEG

  • Batas ukuran gambar masukan: 25 MB

  • Dimensi gambar: min: 256 px, maks: 4.096 px

  • Jumlah maksimum token dalam keterangan: 128

  • Rentang ukuran kumpulan data pelatihan: 1000 - 500.000

  • Rentang ukuran dataset validasi: 8 - 50.000

  • Panjang keterangan dalam karakter: 0 - 2.560

  • Total piksel maksimum per gambar: 2048* 2048* 3

  • Rasio aspek (w/jam): min: 0,25, maks: 4

Mempersiapkan dataset

Untuk dataset pelatihan, buat .jsonl file dengan beberapa JSON baris. Setiap JSON baris berisi caption atribut image-ref dan atribut yang mirip dengan format Sagemaker Augmented Manifest. Diperlukan kumpulan data validasi. Teks otomatis saat ini tidak didukung.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Untuk kumpulan data pelatihan dan validasi, Anda akan membuat .jsonl file dengan beberapa baris. JSON

Jalur Amazon S3 harus berada di folder yang sama di mana Anda telah memberikan izin bagi Amazon Bedrock untuk mengakses data dengan melampirkan kebijakan IAM ke peran layanan Amazon Bedrock Anda. Untuk informasi selengkapnya tentang pemberian IAM kebijakan untuk data pelatihan, lihat Memberikan akses lowongan khusus ke data pelatihan Anda.

Hyperparameter

Nilai-nilai ini dapat disesuaikan untuk hiperparameter model Multimodal Embeddings. Nilai default akan berfungsi dengan baik untuk sebagian besar kasus penggunaan.

  • Tingkat pembelajaran - (tingkat pembelajaran min/maks) - default: 5.00E-05, min: 5.00E-08, maks: 1

  • Ukuran batch - Ukuran batch efektif - default: 576, min: 256, maks: 9.216

  • Epoch maks - default: “auto”, min: 1, maks: 100