Fitur yang didukung Prasyarat Konfigurasi koneksi

Connect ke Amazon S3 untuk basis pengetahuan Anda

penting

Untuk akurasi pengambilan yang dioptimalkan dan pengalaman terkelola, kami merekomendasikan Amazon Bedrock Managed Knowledge Base.

Amazon S3 adalah layanan penyimpanan objek yang menyimpan data sebagai objek dalam bucket. Anda dapat menyambung ke bucket Amazon S3 untuk basis pengetahuan Amazon Bedrock dengan menggunakan AWSManagement Console untuk Amazon Bedrock atau API CreateDataSource(lihat SDK yang didukung Amazon Bedrock dan). AWS CLI

Dukungan konten multimodal

Sumber data Amazon S3 mendukung konten multimodal termasuk file gambar, audio, dan video. Untuk panduan komprehensif tentang bekerja dengan konten multimodal, lihatMembangun basis pengetahuan untuk konten multimodal.

Anda dapat mengunggah sejumlah kecil file ke bucket Amazon S3 menggunakan konsol Amazon S3 atau API. Anda juga dapat menggunakan AWS DataSyncuntuk mengunggah beberapa file ke S3 secara terus menerus, dan mentransfer file sesuai jadwal dari lokal, edge, cloud lain, atau AWS penyimpanan.

Saat ini hanya bucket General Purpose S3 yang didukung.

Ada batasan berapa banyak file dan MB per file yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.

Fitur yang didukung

Bidang metadata dokumen
Awalan inklusi
Konten tambahan disinkronkan untuk konten yang ditambahkan, diperbarui, dihapus

Prasyarat

Di Amazon S3, pastikan Anda:

Perhatikan URI bucket Amazon S3, Nama Sumber Daya Amazon (ARN), dan ID AWS akun untuk pemilik bucket. Anda dapat menemukan URI dan ARN di bagian properti di konsol Amazon S3. Bucket Anda harus berada di Wilayah yang sama dengan basis pengetahuan Amazon Bedrock Anda. Anda harus memiliki izin untuk mengakses ember.

Di AWS akun Anda, pastikan Anda:

Sertakan izin yang diperlukan untuk terhubung ke sumber data Anda dalam role/permissions kebijakan AWS Identity and Access Management (IAM) untuk basis pengetahuan Anda. Untuk informasi tentang izin yang diperlukan untuk sumber data ini untuk ditambahkan ke IAM peran basis pengetahuan Anda, lihat Izin untuk mengakses sumber data.

catatan

Jika Anda menggunakan konsol, IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah-langkah untuk membuat basis pengetahuan. Setelah Anda mengonfigurasi sumber data dan konfigurasi lainnya, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.

Konfigurasi koneksi

Untuk terhubung ke bucket Amazon S3, Anda harus memberikan informasi konfigurasi yang diperlukan agar Amazon Bedrock dapat mengakses dan merayapi data Anda. Anda juga harus mengikutiPrasyarat.

Contoh konfigurasi untuk sumber data ini disertakan dalam bagian ini.

Untuk informasi selengkapnya tentang filter inklusi, kolom metadata dokumen, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:

Anda dapat menyertakan file terpisah yang menentukan metadata dokumen fields/attributes untuk setiap file di sumber data Amazon S3 Anda dan apakah akan memasukkannya ke dalam penyematan saat mengindeks sumber data ke dalam penyimpanan vektor. Misalnya, Anda dapat membuat file dalam format berikut, beri nama, fileName.extension.metadata.json dan unggah ke bucket S3 Anda.



{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}

File metadata harus menggunakan nama yang sama dengan file dokumen sumber terkait, dengan .metadata.json ditambahkan ke akhir nama file. File metadata harus disimpan di folder atau lokasi yang sama dengan file sumber di bucket Amazon S3 Anda. File tidak boleh melebihi batas 10 KB. Untuk informasi tentang tipe attribute/field data yang didukung dan operator pemfilteran yang dapat Anda terapkan ke bidang metadata, lihat Metadata dan pemfilteran.

includeForEmbeddingBidang mengontrol apakah atribut metadata disertakan saat menyematkan potongan:

includeForEmbedding: false— Hanya teks potongan yang disematkan dan diubah menjadi vektor selama konsumsi. Metadata masih disimpan dan tersedia untuk penyaringan, tetapi tidak mempengaruhi hasil pencarian semantik.
includeForEmbedding: true— Pasangan nilai kunci metadata digabungkan ke teks potongan sebelum menyematkan (misalnya,). key1: value1\n\nchunk text Ini berarti informasi metadata disertakan dalam vektor penyematan, jadi kueri yang menyebutkan kunci atau nilai metadata akan berkontribusi pada skor kesamaan dan meningkatkan relevansi pencarian. Pasangan nilai kunci metadata tidak disertakan dalam teks potongan yang dikembalikan dalam hasil, memastikan bahwa hasil hanya berisi konten mentah dari file sumber.

Anda juga dapat menggunakan format yang disederhanakan untuk atribut metadata saat Anda tidak perlu mengontrol perilaku penyematan:


{
    "metadataAttributes": {
        "tag": "value"
    }
}

Dengan format yang disederhanakan, metadata disimpan untuk pemfilteran tetapi tidak termasuk dalam penyematan (setara dengan). includeForEmbedding: false

Anda dapat menentukan awalan inklusi, yang merupakan awalan jalur Amazon S3, tempat Anda dapat menggunakan file S3 atau folder alih-alih seluruh bucket untuk membuat konektor sumber data S3.

Konektor sumber data merayapi konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan basis pengetahuan Anda. Amazon Bedrockdapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan merayapi konten yang berubah sejak sinkronisasi terakhir. Saat Anda menyinkronkan sumber data dengan basis pengetahuan untuk pertama kalinya, semua konten dirayapi secara default.

Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPI atau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

penting

Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.

Console

Untuk menghubungkan bucket Amazon S3 ke basis pengetahuan Anda

Ikuti langkah-langkah di Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan pilih Amazon S3 sebagai sumber data.
Berikan nama untuk sumber data.
Tentukan apakah bucket Amazon S3 ada di akun Anda saat ini atau AWS akun lainAWS. Ember Anda harus berada di Wilayah yang sama dengan basis pengetahuan.
(Opsional) Jika bucket Amazon S3 dienkripsi dengan kunci KMS, sertakan kuncinya. Untuk informasi selengkapnya, lihat Izin untuk mendekripsi AWS KMS kunci untuk sumber data Anda di Amazon S3.
(Opsional) Di bagian Parsing dan chunking konten, Anda dapat menyesuaikan cara mengurai dan memotong data Anda. Lihat sumber daya berikut untuk mempelajari lebih lanjut tentang penyesuaian ini:
- Untuk informasi selengkapnya tentang opsi penguraian, lihatOpsi penguraian untuk sumber data Anda.
- Untuk informasi lebih lanjut tentang strategi chunking, lihat. Bagaimana content chunking bekerja untuk basis pengetahuan
  
  Awas
  Anda tidak dapat mengubah strategi chunking setelah terhubung ke sumber data.
- Untuk informasi selengkapnya tentang cara menyesuaikan potongan data dan pemrosesan metadata Anda dengan fungsi Lambda, lihat. Gunakan fungsi Lambda transformasi kustom untuk menentukan bagaimana data Anda dicerna
Di bagian Pengaturan lanjutan, Anda dapat secara opsional mengonfigurasi yang berikut:
- Kunci KMS untuk penyimpanan data sementara. — Anda dapat mengenkripsi data sementara sambil mengubah data Anda menjadi embeddings dengan default atau kunci KMS Anda sendiri. Kunci yang dikelola AWS Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.
- Kebijakan penghapusan data — Anda dapat menghapus embeddings vektor untuk sumber data Anda yang disimpan di penyimpanan vektor secara default, atau memilih untuk menyimpan data penyimpanan vektor.
Lanjutkan untuk memilih model embeddings dan penyimpanan vektor. Untuk melihat langkah-langkah yang tersisa, kembali ke Buat basis pengetahuan dengan menghubungkan ke sumber data di Amazon Bedrock Knowledge Bases dan lanjutkan dari langkah setelah menghubungkan sumber data Anda.

API

Berikut ini adalah contoh konfigurasi untuk menghubungkan ke Amazon S3 untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi sumber data menggunakan API dengan AWS CLI atau SDK yang didukung, seperti Python. Setelah menelepon CreateKnowledgeBase, Anda menelepon CreateDataSourceuntuk membuat sumber data dengan informasi koneksi Anda didataSourceConfiguration.

Untuk mempelajari tentang penyesuaian yang dapat Anda terapkan pada konsumsi dengan menyertakan bidang opsionalvectorIngestionConfiguration, lihat. Sesuaikan konsumsi untuk sumber data

AWS Command Line Interface


aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Connect sumber data

Confluence