Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Connect ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda
Amazon S3 adalah layanan penyimpanan objek yang menyimpan data sebagai objek dalam bucket. Anda dapat terhubung ke bucket Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda dengan menggunakan salah satu AWS Konsol Manajemen untuk Amazon Bedrock atau CreateDataSourceAPI(lihat Amazon Bedrock didukung dan SDKs AWS CLI).
Anda dapat mengunggah sejumlah kecil file ke bucket Amazon S3 menggunakan konsol Amazon S3 atau. API Anda dapat menggunakan AWS DataSyncuntuk mengunggah beberapa file ke S3 secara terus menerus, dan mentransfer file sesuai jadwal dari lokal, edge, cloud lain, atau AWS penyimpanan.
Saat ini hanya bucket General Purpose S3 yang didukung.
Ada batasan berapa banyak file dan MB per file yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.
Fitur yang didukung
-
Bidang metadata dokumen
-
Filter konten inklusi/pengecualian
-
Konten tambahan disinkronkan untuk konten yang ditambahkan, diperbarui, dihapus
Prasyarat
Di Amazon S3, pastikan Anda:
-
Perhatikan bucket Amazon S3, Nama Sumber Daya URI Amazon (ARN), dan AWS ID akun untuk pemilik ember. Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.
Dalam Anda AWS akun, pastikan Anda:
-
Sertakan izin yang diperlukan untuk terhubung ke sumber data Anda di AWS Identity and Access Management (IAM) kebijakan peran/izin untuk basis pengetahuan Anda. Untuk informasi tentang izin yang diperlukan untuk sumber data ini untuk ditambahkan ke basis pengetahuan Anda IAM peran, lihat Izin untuk mengakses sumber data.
Jika Anda menggunakan konsol, IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah-langkah untuk membuat basis pengetahuan. Setelah Anda mengonfigurasi sumber data dan konfigurasi lainnya, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.
Konfigurasi koneksi
Untuk terhubung ke bucket Amazon S3, Anda harus memberikan informasi konfigurasi yang diperlukan agar Amazon Bedrock dapat mengakses dan merayapi data Anda. Anda juga harus mengikutiPrasyarat.
Contoh konfigurasi untuk sumber data ini disertakan dalam bagian ini.
Untuk informasi selengkapnya tentang filter inklusi/pengecualian, bidang metadata dokumen, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:
Anda dapat menyertakan file terpisah yang menentukan bidang/atribut metadata dokumen untuk setiap file di Amazon S3. Misalnya, dokumen oscars-coverage_20240310.pdf
berisi artikel berita, yang dapat dikategorikan berdasarkan tahun dan genre. Untuk contoh ini, buat dan unggah ke bucket Anda berikut ini oscars-coverage_20240310.pdf.metadata.json
berkas.
{
"metadataAttributes": {
"genre": "entertainment",
"year": 2024
}
}
File metadata harus menggunakan nama yang sama dengan file dokumen sumber terkait, dengan .metadata.json
ditambahkan ke akhir nama file. File metadata harus disimpan di folder atau lokasi yang sama dengan file sumber di bucket Amazon S3 Anda. File tidak boleh melebihi batas 10 KB. Untuk informasi tentang tipe data atribut/bidang yang didukung dan operator pemfilteran yang dapat Anda terapkan ke bidang metadata, lihat Metadata dan pemfilteran.
Anda dapat menyertakan atau mengecualikan perayapan konten tertentu. Misalnya, Anda dapat menentukan awalan pengecualian/pola ekspresi reguler untuk melewatkan perayapan file apa pun yang berisi “pribadi” dalam nama file. Anda juga dapat menentukan prefiks/pola ekspresi reguler inklusi untuk menyertakan entitas konten atau jenis konten tertentu. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan dokumen, filter pengecualian akan diutamakan dan dokumen tidak dirayapi.
Contoh pola filter untuk hanya menyertakan PDF file: “.*\\ .pdf”
Konektor sumber data merayapi konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan basis pengetahuan Anda. Amazon Bedrock dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan merayapi konten yang berubah sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data dengan basis pengetahuan untuk pertama kalinya, semua konten dirayapi secara default.
Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPIatau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.
Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve
izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.
- Console
-
Berikut ini adalah contoh konfigurasi untuk menghubungkan ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi sumber data sebagai bagian dari langkah pembuatan basis pengetahuan di konsol.
-
Masuk ke AWS Management Console menggunakan IAMperan dengan izin Amazon Bedrock, dan buka konsol Amazon Bedrock di. https://console.aws.amazon.com/bedrock/
-
Dari panel navigasi kiri, pilih Basis pengetahuan.
-
Di bagian Basis pengetahuan, pilih Buat basis pengetahuan.
-
Berikan detail basis pengetahuan.
-
Berikan nama basis pengetahuan dan deskripsi opsional.
-
Berikan AWS Identity and Access Management peran untuk izin akses yang diperlukan yang diperlukan untuk membuat basis pengetahuan.
Bagian IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah konsol untuk membuat basis pengetahuan. Setelah Anda menyelesaikan langkah-langkah untuk membuat basis pengetahuan, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.
-
Buat tag apa pun yang ingin Anda tetapkan ke basis pengetahuan Anda.
Buka bagian berikutnya untuk mengonfigurasi sumber data Anda.
-
Pilih Amazon S3 sebagai sumber data Anda dan berikan detail konfigurasi koneksi.
-
Berikan nama sumber data.
-
Tentukan apakah bucket Amazon S3 Anda ada di bucket Anda saat ini AWS akun atau lainnya AWS akun.
-
Jelajahi dari lokasi bucket Amazon S3 yang ada atau berikan. URI Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.
Anda dapat memilih untuk menggunakan pengelolaan Anda sendiri AWS KMS kunci untuk enkripsi data.
Periksa pengaturan lanjutan. Anda dapat secara opsional mengubah pengaturan default yang dipilih.
-
Setel kunci enkripsi data sementara dan kebijakan penghapusan data di pengaturan lanjutan.
Untuk KMS key pengaturan, Anda dapat memilih kunci khusus atau menggunakan kunci enkripsi data default yang disediakan.
Saat mengubah data Anda menjadi embeddings, Amazon Bedrock mengenkripsi data transien Anda dengan kunci yang AWS memiliki dan mengelola, secara default. Anda dapat menggunakan KMS kunci Anda sendiri. Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.
Untuk setelan kebijakan penghapusan data, Anda dapat memilih:
-
Hapus: Menghapus semua data dari sumber data Anda yang diubah menjadi embeddings vektor setelah penghapusan basis pengetahuan atau sumber daya sumber data. Perhatikan bahwa penyimpanan vektor itu sendiri tidak dihapus, hanya data. Bendera ini diabaikan jika AWS akun dihapus.
-
Mempertahankan: Menyimpan semua data dari sumber data Anda yang diubah menjadi embeddings vektor setelah penghapusan basis pengetahuan atau sumber daya sumber data. Perhatikan bahwa penyimpanan vektor itu sendiri tidak dihapus jika Anda menghapus basis pengetahuan atau sumber daya sumber data.
Lanjutkan mengonfigurasi sumber data Anda.
-
Pilih konfigurasi chunking dan parsing default atau yang disesuaikan.
-
Jika Anda memilih pengaturan khusus, pilih salah satu opsi chunking berikut:
-
Potongan ukuran tetap: Konten dibagi menjadi potongan-potongan teks dengan perkiraan ukuran token yang Anda tetapkan. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.
-
Potongan default: Konten dibagi menjadi potongan-potongan teks hingga 300 token. Jika satu dokumen atau konten berisi kurang dari 300 token, dokumen tersebut tidak dibagi lebih lanjut.
-
Chunking hierarkis: Konten diatur ke dalam struktur bersarang dari potongan orangtua-anak. Anda menetapkan ukuran token chunk induk maksimum dan ukuran token chunk anak maksimum. Anda juga menetapkan jumlah absolut token tumpang tindih antara potongan induk berturut-turut dan potongan anak berturut-turut.
-
Potongan semantik: Konten yang disusun ke dalam potongan teks atau kelompok kalimat yang serupa secara semantik. Anda mengatur jumlah maksimum kalimat di sekitar target/kalimat saat ini untuk dikelompokkan bersama (ukuran buffer). Anda juga menetapkan ambang batas persentil breakpoint untuk membagi teks menjadi potongan-potongan yang bermakna. Chunking semantik menggunakan model pondasi. Lihat Amazon Bedrock harga untuk informasi tentang biaya model pondasi.
-
Tidak ada potongan: Setiap dokumen diperlakukan sebagai potongan teks tunggal. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah.
Anda tidak dapat mengubah strategi chunking setelah Anda membuat sumber data.
-
Anda dapat memilih untuk menggunakan Amazon Bedrock model dasar untuk mengurai dokumen untuk mengurai lebih dari teks standar. Anda dapat mengurai data tabular dalam dokumen dengan strukturnya utuh, misalnya. Lihat Amazon Bedrock harga untuk informasi tentang biaya model pondasi.
-
Anda dapat memilih untuk menggunakan AWS Lambda berfungsi untuk menyesuaikan strategi chunking Anda dan bagaimana atribut/bidang metadata dokumen Anda diperlakukan dan dicerna. Berikan Amazon S3 lokasi bucket untuk input dan output fungsi Lambda.
Pergi ke bagian berikutnya untuk mengkonfigurasi penyimpanan vektor Anda.
-
Pilih model untuk mengubah data Anda menjadi embeddings vektor.
Buat toko vektor untuk memungkinkan Amazon Bedrock menyimpan, memperbarui, dan mengelola penyematan. Anda dapat dengan cepat membuat toko vektor baru atau memilih dari toko vektor yang didukung yang telah Anda buat. Jika Anda membuat penyimpanan vektor baru, koleksi pencarian vektor Amazon OpenSearch Tanpa Server dan indeks dengan bidang wajib disiapkan untuk Anda. Jika Anda memilih dari penyimpanan vektor yang didukung, Anda harus memetakan nama bidang vektor dan nama bidang metadata.
Buka bagian berikutnya untuk meninjau konfigurasi basis pengetahuan Anda.
-
Periksa detail basis pengetahuan Anda. Anda dapat mengedit bagian apa pun sebelum melanjutkan dan membuat basis pengetahuan Anda.
Waktu yang dibutuhkan untuk membuat basis pengetahuan tergantung pada konfigurasi spesifik Anda. Ketika pembuatan basis pengetahuan telah selesai, status basis pengetahuan berubah menjadi keadaan siap atau tersedia.
Setelah basis pengetahuan Anda siap dan tersedia, sinkronkan sumber data Anda untuk pertama kalinya dan kapan pun Anda ingin memperbarui konten Anda. Pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.
- API
-
Berikut ini adalah contoh konfigurasi untuk menghubungkan ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi sumber data Anda menggunakan API dengan AWS CLI atau didukungSDK, seperti Python. Setelah menelepon CreateKnowledgeBase, Anda menelepon CreateDataSourceuntuk membuat sumber data dengan informasi koneksi Anda didataSourceConfiguration
. Ingatlah untuk juga menentukan strategi/pendekatan chunking Anda vectorIngestionConfiguration
dan kebijakan penghapusan data Anda di. dataDeletionPolicy
AWS Command Line Interface
aws bedrock create-data-source \
--name "S3 connector" \
--description "S3 data source connector for Amazon Bedrock to use content in S3" \
--knowledge-base-id "your-knowledge-base-id" \
--data-source-configuration file://s3-bedrock-connector-configuration.json \
--data-deletion-policy "DELETE" \
--vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'
s3-bedrock-connector-configuration.json
{
"s3Configuration": {
"bucketArn": "arn:aws:s3:::bucket-name",
"bucketOwnerAccountId": "000000000000",
"inclusionPrefixes": [
".*\\.pdf"
]
},
"type": "S3"
}