Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon S3 adalah layanan penyimpanan objek yang menyimpan data sebagai objek dalam bucket. Anda dapat terhubung ke bucket Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda dengan menggunakan AWS Management Console untuk Amazon Bedrock atau API CreateDataSource(lihat Amazon Bedrock
Anda dapat mengunggah sejumlah kecil file ke bucket Amazon S3 menggunakan konsol Amazon S3 atau API. Anda juga dapat menggunakan AWS DataSyncuntuk mengunggah beberapa file ke S3 secara terus menerus, dan mentransfer file sesuai jadwal dari lokal, edge, cloud lain, atau AWS penyimpanan.
Saat ini hanya bucket General Purpose S3 yang didukung.
Ada batasan berapa banyak file dan MB per file yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.
Fitur yang didukung
-
Bidang metadata dokumen
-
Filter konten inklusi
-
Konten tambahan disinkronkan untuk konten yang ditambahkan, diperbarui, dihapus
Prasyarat
Di Amazon S3, pastikan Anda:
-
Perhatikan URI bucket Amazon S3, Nama Sumber Daya Amazon (ARN), dan ID AWS akun untuk pemilik bucket. Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.
Di AWS akun Anda, pastikan Anda:
-
Sertakan izin yang diperlukan untuk terhubung ke sumber data Anda dalam kebijakan peran/izin AWS Identity and Access Management (IAM) untuk basis pengetahuan Anda. Untuk informasi tentang izin yang diperlukan untuk sumber data ini untuk ditambahkan ke IAM peran basis pengetahuan Anda, lihat Izin untuk mengakses sumber data.
catatan
Jika Anda menggunakan konsol, IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah-langkah untuk membuat basis pengetahuan. Setelah Anda mengonfigurasi sumber data dan konfigurasi lainnya, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.
Konfigurasi koneksi
Untuk terhubung ke bucket Amazon S3, Anda harus memberikan informasi konfigurasi yang diperlukan agar Amazon Bedrock dapat mengakses dan merayapi data Anda. Anda juga harus mengikutiPrasyarat.
Contoh konfigurasi untuk sumber data ini disertakan dalam bagian ini.
Untuk informasi selengkapnya tentang filter inklusi, kolom metadata dokumen, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:
Anda dapat menyertakan file terpisah yang menentukan bidang/atribut metadata dokumen untuk setiap file di sumber data Amazon S3 Anda dan apakah akan memasukkannya ke dalam embeddings saat mengindeks sumber data ke dalam penyimpanan vektor. Misalnya, Anda dapat membuat file dalam format berikut, beri nama, example.metadata.json
dan unggah ke bucket S3 Anda.
{
"metadataAttributes": {
"company": {
"value": {
"type": "STRING",
"stringValue": "BioPharm Innovations"
},
"includeForEmbedding": true
},
"created_date": {
"value": {
"type": "NUMBER",
"numberValue": 20221205
},
"includeForEmbedding": true
},
"author": {
"value": {
"type": "STRING",
"stringValue": "Lisa Thompson"
},
"includeForEmbedding": true
},
"origin": {
"value": {
"type": "STRING",
"stringValue": "Overview"
},
"includeForEmbedding": true
}
}
}
File metadata harus menggunakan nama yang sama dengan file dokumen sumber terkait, dengan .metadata.json
ditambahkan ke akhir nama file. File metadata harus disimpan di folder atau lokasi yang sama dengan file sumber di bucket Amazon S3 Anda. File tidak boleh melebihi batas 10 KB. Untuk informasi tentang tipe data atribut/bidang yang didukung dan operator pemfilteran yang dapat Anda terapkan ke bidang metadata, lihat Metadata dan pemfilteran.
Anda dapat menentukan awalan inklusi, yang merupakan awalan jalur Amazon S3, tempat Anda dapat menggunakan file S3 atau folder alih-alih seluruh bucket untuk membuat konektor sumber data S3. Misalnya, awalan Anda dapat berupa “.*\\ .pdf”.
Konektor sumber data merayapi konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan basis pengetahuan Anda. Amazon Bedrock dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan merayapi konten yang berubah sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data dengan basis pengetahuan untuk pertama kalinya, semua konten dirayapi secara default.
Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.
penting
Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve
izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.
Untuk menghubungkan bucket Amazon S3 ke basis pengetahuan Anda
-
Ikuti langkah-langkah di Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan pilih Amazon S3 sebagai sumber data.
-
Berikan nama untuk sumber data.
-
Tentukan apakah bucket Amazon S3 ada di akun Anda saat ini atau AWS akun lain AWS . Ember Anda harus berada di wilayah yang sama dengan basis pengetahuan.
-
(Opsional) Jika bucket Amazon S3 dienkripsi dengan kunci KMS, sertakan kuncinya. Untuk informasi selengkapnya, lihat Izin untuk mendekripsi AWS KMS kunci Anda untuk sumber data Anda di Amazon S3.
-
(Opsional) Di bagian Parsing dan chunking konten, Anda dapat menyesuaikan cara mengurai dan memotong data Anda. Lihat sumber daya berikut untuk mempelajari lebih lanjut tentang penyesuaian ini:
-
Untuk informasi selengkapnya tentang opsi penguraian, lihatOpsi penguraian untuk sumber data Anda.
-
Untuk informasi lebih lanjut tentang strategi chunking, lihat. Bagaimana content chunking bekerja untuk basis pengetahuan
Awas
Anda tidak dapat mengubah strategi chunking setelah terhubung ke sumber data.
-
Untuk informasi selengkapnya tentang cara menyesuaikan potongan data dan pemrosesan metadata Anda dengan fungsi Lambda, lihat. Gunakan fungsi Lambda transformasi kustom untuk menentukan bagaimana data Anda dicerna
-
-
Di bagian Pengaturan lanjutan, Anda dapat secara opsional mengonfigurasi yang berikut:
-
Kunci KMS untuk penyimpanan data sementara. — Anda dapat mengenkripsi data sementara sambil mengubah data Anda menjadi embeddings dengan default atau kunci KMS Anda sendiri. Kunci yang dikelola AWS Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.
-
Kebijakan penghapusan data — Anda dapat menghapus embeddings vektor untuk sumber data Anda yang disimpan di penyimpanan vektor secara default, atau memilih untuk menyimpan data penyimpanan vektor.
-
-
Lanjutkan untuk memilih model embeddings dan penyimpanan vektor. Untuk melihat langkah-langkah yang tersisa, kembali ke Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan lanjutkan dari langkah setelah menghubungkan sumber data Anda.