Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sinkronkan data Anda dengan basis pengetahuan Amazon Bedrock Anda
Setelah Anda membuat basis pengetahuan Anda, Anda menelan atau menyinkronkan data Anda sehingga data dapat ditanyakan. Ingestion mengubah data mentah di sumber data Anda menjadi embeddings vektor, berdasarkan model dan konfigurasi penyematan vektor yang Anda tentukan.
Sebelum Anda mulai menelan, periksa apakah sumber data Anda memenuhi kondisi berikut:
-
Anda telah mengonfigurasi informasi koneksi untuk sumber data Anda. Untuk mengonfigurasi konektor sumber data untuk merayapi data dari repositori sumber data, lihat Konektor sumber data yang didukung. Anda mengonfigurasi sumber data Anda sebagai bagian dari pembuatan basis pengetahuan Anda.
-
Anda telah mengonfigurasi model penyematan vektor dan penyimpanan vektor pilihan Anda. Lihat model penyematan vektor yang didukung dan penyimpanan vektor untuk basis pengetahuan. Anda mengonfigurasi penyematan vektor Anda sebagai bagian dari pembuatan basis pengetahuan Anda.
-
File dalam format yang didukung. Untuk informasi selengkapnya, lihat Format dokumen Dukungan.
-
File tidak melebihi ukuran file pekerjaan Ingestion yang ditentukan di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
-
Jika sumber data Anda berisi file metadata, periksa kondisi berikut untuk memastikan bahwa file metadata tidak diabaikan:
-
Setiap
.metadata.jsonfile berbagi nama file dan ekstensi yang sama dengan file sumber yang terkait dengannya. -
Jika indeks vektor untuk basis pengetahuan Anda ada di penyimpanan vektor Amazon OpenSearch Tanpa Server, periksa apakah indeks vektor dikonfigurasi dengan mesin.
faissJika indeks vektor dikonfigurasi dengannmslibmesin, Anda harus melakukan salah satu hal berikut:-
Buat basis pengetahuan baru di konsol dan biarkan Amazon Bedrock secara otomatis membuat indeks vektor di Amazon OpenSearch Tanpa Server untuk Anda.
-
Buat indeks vektor lain di toko vektor dan pilih
faisssebagai Mesin. Kemudian buat basis pengetahuan baru dan tentukan indeks vektor baru.
-
-
Jika indeks vektor untuk basis pengetahuan Anda berada di kluster database Amazon Aurora, sebaiknya gunakan bidang metadata khusus untuk menyimpan semua metadata Anda dalam satu kolom dan membuat indeks di kolom ini. Jika Anda tidak menyediakan bidang metadata kustom, Anda harus memeriksa bahwa tabel untuk indeks Anda berisi kolom untuk setiap properti metadata dalam file metadata Anda sebelum memulai konsumsi. Untuk informasi selengkapnya, lihat Prasyarat untuk menggunakan penyimpanan vektor yang Anda buat untuk basis pengetahuan.
-
Setiap kali Anda menambahkan, memodifikasi, atau menghapus file dari sumber data Anda, Anda harus menyinkronkan sumber data sehingga diindeks ulang ke basis pengetahuan. Sinkronisasi bersifat bertahap, jadi Amazon Bedrock hanya memproses dokumen yang ditambahkan, dimodifikasi, atau dihapus sejak sinkronisasi terakhir.
Bagaimana basis pengetahuan menangani sinkronisasi ulang
Setiap kali Anda menambahkan, memodifikasi, atau menghapus file dari sumber data Anda, Anda harus menyinkronkan sumber data sehingga diindeks ulang di basis pengetahuan. Sinkronisasi bersifat bertahap, jadi Amazon Bedrock hanya memproses dokumen yang ditambahkan, dimodifikasi, atau dihapus sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data, Amazon Bedrock akan mencerna kembali dokumen untuk memastikan keakuratan dan konsistensi. Penyerapan ulang termasuk parsing, chunking, menghasilkan embeddings, dan pengindeksan ke dalam penyimpanan vektor.
| Skenario | Apa yang terjadi |
|---|---|
| Tidak ada perubahan yang terdeteksi | Dokumen dilewati. |
| Konten atau metadata berubah | Dokumen dicerna ulang (diurai ulang, dipotong ulang, disematkan ulang, dan diindeks ulang). |
| Dokumen baru ditambahkan | Hanya dokumen baru yang dicerna. |
| Dokumen dihapus | Dokumen dihapus dari toko vektor. |
Pengoptimalan hanya metadata
Dalam kasus tertentu, Amazon Bedrock dapat memperbarui metadata tanpa menelan ulang dokumen yang terkait dengan file metadata tersebut. Pengoptimalan ini mengambil penyematan vektor yang ada dari penyimpanan vektor, menggabungkan metadata baru, dan menulis embeddings yang diperbarui kembali, yang menghindari panggilan ke model penyematan.
Optimalisasi ini hanya berlaku jika semua kondisi berikut terpenuhi:
-
Hanya
metadata.jsonfile yang dimodifikasi. Tidak ada file konten yang diubah. -
File konten terkait bukan file CSV.
-
Sumber data tidak menggunakan fungsi Lambda transformasi kustom.
Perilaku konsumsi ulang untuk file CSV
File CSV menggunakan documentStructureConfiguration bidang dalam metadata untuk mengontrol kolom mana yang diindeks. Karena Amazon Bedrock tidak dapat menentukan apakah konfigurasi struktural ini berubah tanpa memproses ulang file, file CSV selalu dicerna ulang saat file metadatanya diperbarui.
Untuk mempelajari cara memasukkan data Anda ke dalam basis pengetahuan Anda dan menyinkronkan dengan data terbaru Anda, pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya: