Bagaimana basis pengetahuan menangani sinkronisasi ulang

Sinkronkan data Anda dengan basis pengetahuan Amazon Bedrock

penting

Untuk akurasi pengambilan yang dioptimalkan dan pengalaman terkelola, kami merekomendasikan Amazon Bedrock Managed Knowledge Base.

Setelah Anda membuat basis pengetahuan Anda, Anda menelan atau menyinkronkan data Anda sehingga data dapat ditanyakan. Ingestion mengubah data mentah di sumber data Anda menjadi embeddings vektor, berdasarkan model dan konfigurasi penyematan vektor yang Anda tentukan.

Sebelum Anda mulai menelan, periksa apakah sumber data Anda memenuhi ketentuan berikut:

Anda telah mengonfigurasi informasi koneksi untuk sumber data Anda. Untuk mengonfigurasi konektor sumber data untuk merayapi data dari repositori sumber data, lihat Konektor sumber data yang didukung. Anda mengonfigurasi sumber data Anda sebagai bagian dari pembuatan basis pengetahuan Anda.
Anda telah mengonfigurasi model penyematan vektor dan penyimpanan vektor pilihan Anda. Lihat model penyematan vektor yang didukung dan penyimpanan vektor untuk basis pengetahuan. Anda mengonfigurasi penyematan vektor Anda sebagai bagian dari pembuatan basis pengetahuan Anda.
File dalam format yang didukung. Untuk informasi selengkapnya, lihat Format dokumen Dukungan.
File tidak melebihi ukuran file pekerjaan Ingestion yang ditentukan di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS
Jika sumber data Anda berisi file metadata, periksa kondisi berikut untuk memastikan bahwa file metadata tidak diabaikan:
- Setiap .metadata.json file berbagi nama file dan ekstensi yang sama dengan file sumber yang terkait dengannya.
- Jika indeks vektor untuk basis pengetahuan Anda ada di penyimpanan vektor Amazon OpenSearch Tanpa Server, periksa apakah indeks vektor dikonfigurasi dengan mesin. faiss Jika indeks vektor dikonfigurasi dengan nmslib mesin, Anda harus melakukan salah satu hal berikut:
  - Buat basis pengetahuan baru di konsol dan biarkan Amazon Bedrock secara otomatis membuat indeks vektor di Amazon OpenSearch Tanpa Server untuk Anda.
  - Buat indeks vektor lain di toko vektor dan pilih faiss sebagai Mesin. Kemudian buat basis pengetahuan baru dan tentukan indeks vektor baru.
- Jika indeks vektor untuk basis pengetahuan Anda berada di kluster database Amazon Aurora, sebaiknya gunakan bidang metadata khusus untuk menyimpan semua metadata Anda dalam satu kolom dan membuat indeks di kolom ini. Jika Anda tidak menyediakan bidang metadata kustom, Anda harus memeriksa bahwa tabel untuk indeks Anda berisi kolom untuk setiap properti metadata dalam file metadata Anda sebelum memulai konsumsi. Untuk informasi selengkapnya, lihat Prasyarat untuk menggunakan penyimpanan vektor yang Anda buat untuk basis pengetahuan.

Setiap kali Anda menambahkan, memodifikasi, atau menghapus file dari sumber data Anda, Anda harus menyinkronkan sumber data sehingga diindeks ulang ke basis pengetahuan. Sinkronisasi bersifat bertahap, jadi Amazon Bedrock hanya memproses dokumen yang ditambahkan, dimodifikasi, atau dihapus sejak sinkronisasi terakhir.

Bagaimana basis pengetahuan menangani sinkronisasi ulang

Setiap kali Anda menambahkan, memodifikasi, atau menghapus file dari sumber data Anda, Anda harus menyinkronkan sumber data sehingga diindeks ulang di basis pengetahuan. Sinkronisasi bersifat bertahap, jadi Amazon Bedrock hanya memproses dokumen yang ditambahkan, dimodifikasi, atau dihapus sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data, Amazon Bedrock akan mencerna kembali dokumen untuk memastikan keakuratan dan konsistensi. Re-ingestion termasuk parsing, chunking, menghasilkan embeddings, dan pengindeksan ke dalam penyimpanan vektor.

Skenario sinkronisasi
Skenario	Apa yang terjadi
Tidak ada perubahan yang terdeteksi	Dokumen dilewati.
Konten atau metadata berubah	Dokumen dicerna ulang (diurai ulang, dipotong ulang, disematkan ulang, dan diindeks ulang).
Dokumen baru ditambahkan	Hanya dokumen baru yang dicerna.
Dokumen dihapus	Dokumen dihapus dari toko vektor.

Metadata-only optimasi

Dalam kasus tertentu, Amazon Bedrock dapat memperbarui metadata tanpa menelan ulang dokumen yang terkait dengan file metadata tersebut. Pengoptimalan ini mengambil penyematan vektor yang ada dari penyimpanan vektor, menggabungkan metadata baru, dan menulis embeddings yang diperbarui kembali, yang menghindari panggilan ke model penyematan.

Optimalisasi ini hanya berlaku jika semua kondisi berikut terpenuhi:

Hanya metadata.json file yang dimodifikasi. Tidak ada file konten yang diubah.
File konten terkait bukan file CSV.
Sumber data tidak menggunakan fungsi Lambda transformasi kustom.

Re-ingestion perilaku untuk file CSV

File CSV menggunakan documentStructureConfiguration bidang dalam metadata untuk mengontrol kolom mana yang diindeks. Karena Amazon Bedrock tidak dapat menentukan apakah konfigurasi struktural ini berubah tanpa memproses ulang file, file CSV selalu dicerna ulang saat file metadatanya diperbarui.

Untuk mempelajari cara memasukkan data Anda ke dalam basis pengetahuan Anda dan menyinkronkan dengan data terbaru Anda, pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:

Console

Untuk menyerap data Anda ke dalam basis pengetahuan Anda dan menyinkronkan dengan data terbaru Anda

Buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock/.
Dari panel navigasi kiri, pilih Basis pengetahuan dan pilih basis pengetahuan Anda.
Di bagian Sumber data, pilih Sinkronkan untuk memulai konsumsi data atau menyinkronkan data terbaru Anda. Untuk menghentikan sinkronisasi sumber data yang saat ini, pilih Berhenti. Sumber data saat ini harus disinkronkan untuk menghentikan sinkronisasi sumber data. Anda dapat memilih Sinkronkan lagi untuk menyerap sisa data Anda.
Ketika konsumsi data selesai, spanduk sukses hijau muncul jika berhasil.

catatan
Setelah sinkronisasi data selesai, mungkin diperlukan beberapa menit agar penyematan vektor data yang baru disinkronkan tercermin dalam basis pengetahuan Anda dan tersedia untuk kueri jika Anda menggunakan penyimpanan vektor selain Amazon Aurora (RDS).
Anda dapat memilih sumber data untuk melihat riwayat Sinkronisasi. Pilih Lihat peringatan untuk melihat mengapa pekerjaan penyerapan data gagal.

API

Untuk memasukkan data Anda ke basis pengetahuan Anda dan menyinkronkan dengan data terbaru Anda, kirim StartIngestionJobpermintaan dengan titik akhir waktu build Agen untuk Amazon Bedrock. Tentukan knowledgeBaseId dandataSourceId. Anda juga dapat menghentikan pekerjaan penyerapan data yang sedang berjalan dengan mengirimkan permintaan. StopIngestionJob TentukandataSourceId,ingestionJobId, danknowledgeBaseId. Pekerjaan penyerapan data harus sedang berjalan untuk menghentikan konsumsi data. Anda dapat mengirim StartIngestionJob permintaan lagi untuk menelan sisa data Anda saat Anda siap.

Gunakan yang ingestionJobId dikembalikan dalam respons dalam GetIngestionJobpermintaan dengan titik akhir waktu build Agen untuk Amazon Bedrock untuk melacak status pekerjaan konsumsi. Selain itu, tentukan knowledgeBaseId dandataSourceId.

Ketika pekerjaan konsumsi selesai, responsnya adalahstatus. COMPLETE

catatan
Setelah penyerapan data selesai, mungkin diperlukan beberapa menit agar penyematan vektor dari data yang baru dicerna tersedia di penyimpanan vektor untuk kueri jika Anda menggunakan penyimpanan vektor selain Amazon Aurora (RDS).
statisticsObjek dalam respons mengembalikan informasi tentang apakah konsumsi berhasil atau tidak untuk dokumen dalam sumber data.

Anda juga dapat melihat informasi untuk semua pekerjaan konsumsi untuk sumber data dengan mengirimkan ListIngestionJobspermintaan dengan titik akhir waktu pembuatan Agen untuk Amazon Bedrock. Tentukan dataSourceId knowledgeBaseId dan basis pengetahuan tempat data dicerna.

Filter untuk hasil dengan menentukan status untuk mencari di filters objek.
Urutkan berdasarkan waktu pekerjaan dimulai atau status pekerjaan dengan menentukan sortBy objek. Anda dapat mengurutkan dalam urutan naik atau turun.
Mengatur jumlah maksimum hasil untuk kembali dalam respon di maxResults lapangan. Jika ada lebih banyak hasil daripada nomor yang Anda tetapkan, respons akan mengembalikan permintaan nextToken yang dapat Anda kirim dalam ListIngestionJobspermintaan lain untuk melihat kumpulan pekerjaan berikutnya.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Siapkan konfigurasi keamanan untuk basis pengetahuan Anda

Ingest berubah langsung menjadi basis pengetahuan

Sinkronkan data Anda dengan basis pengetahuan Amazon Bedrock

penting

Bagaimana basis pengetahuan menangani sinkronisasi ulang

Metadata-only optimasi

Re-ingestion perilaku untuk file CSV

Untuk menyerap data Anda ke dalam basis pengetahuan Anda dan menyinkronkan dengan data terbaru Anda

catatan

catatan