Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengubah data menjadi basis pengetahuan
Untuk membuat basis pengetahuan, sambungkan ke sumber data yang didukung yang ingin dapat diakses oleh basis pengetahuan Anda. Basis pengetahuan Anda akan dapat menanggapi pertanyaan pengguna atau menghasilkan tanggapan berdasarkan data yang diambil.
Amazon Bedrock Knowledge Bases mendukung berbagai dokumen, termasuk teks, gambar, atau dokumen multimodal yang berisi tabel, bagan, diagram, dan gambar lainnya. Data multimodal mengacu pada kombinasi teks dan data visual. Contoh jenis file yang berisi data tidak terstruktur adalah teks, penurunan hargaHTML, dan. PDFs
Bagian berikut menjelaskan jenis data yang didukung oleh Pangkalan Pengetahuan Amazon Bedrock dan layanan yang dapat Anda hubungkan dengan basis pengetahuan untuk setiap jenis data:
Data tidak terstruktur
Data tidak terstruktur mengacu pada data yang tidak dipaksa ke dalam struktur yang telah ditentukan. Pangkalan Pengetahuan Amazon Bedrock mendukung penyambungan ke layanan berikut untuk menambahkan data tidak terstruktur ke basis pengetahuan Anda:
Amazon S3
Confluence (pratinjau)
Microsoft SharePoint (pratinjau)
Salesforce (pratinjau)
Web Crawler (pratinjau)
Sumber data khusus (memungkinkan konsumsi langsung data ke basis pengetahuan tanpa perlu disinkronkan)
Sumber data berisi bentuk mentah dokumen Anda. Untuk mengoptimalkan proses kueri, basis pengetahuan mengubah data mentah Anda menjadi embeddings vektor, representasi numerik dari data, untuk mengukur kesamaan dengan kueri yang juga diubah menjadi embeddings vektor. Pangkalan Pengetahuan Amazon Bedrock menggunakan sumber daya berikut dalam proses mengonversi sumber data Anda:
-
Model penyematan — Model dasar yang mengubah data Anda menjadi embeddings vektor.
-
Vector store — Layanan yang menyimpan representasi vektor data Anda. Toko vektor berikut didukung:
-
Amazon Tanpa OpenSearch Server
-
Amazon Neptune
-
Amazon Aurora () RDS
-
Pinecone
-
Redis Enterprise Cloud
-
MongoDB Atlas
-
Proses mengubah data Anda menjadi embeddings vektor disebut konsumsi. Proses konsumsi yang mengubah data Anda menjadi basis pengetahuan melibatkan langkah-langkah berikut:
Tertelan
-
Data diuraikan oleh parser pilihan Anda. Untuk informasi lebih lanjut tentang parsing, lihatOpsi penguraian untuk sumber data Anda.
-
Setiap dokumen di sumber data Anda dibagi menjadi beberapa bagian, subdivisi data yang dapat ditentukan oleh jumlah token dan parameter lainnya. Untuk informasi lebih lanjut tentang chunking, lihat. Bagaimana content chunking bekerja untuk basis pengetahuan
-
Model penyematan yang Anda pilih mengubah data menjadi embeddings vektor.
-
Penyematan vektor ditulis ke indeks vektor di toko vektor pilihan Anda.
Setelah proses konsumsi selesai, basis pengetahuan Anda siap untuk ditanyakan. Untuk informasi tentang cara menanyakan dan mengambil informasi dari basis pengetahuan Anda, lihatMengambil informasi dari sumber data menggunakan Amazon Bedrock Knowledge Bases.
Jika Anda membuat perubahan pada sumber data, Anda harus menyinkronkan perubahan untuk menyerap penambahan, modifikasi, dan penghapusan ke basis pengetahuan. Beberapa sumber data mendukung konsumsi langsung atau penghapusan file ke dalam basis pengetahuan, menghilangkan kebutuhan untuk memperlakukan modifikasi dan konsumsi sumber data sebagai langkah terpisah dan kebutuhan untuk selalu melakukan sinkronisasi penuh. Untuk mempelajari cara menyerap dokumen langsung ke basis pengetahuan Anda dan sumber data yang mendukungnya, lihatIngest berubah langsung menjadi basis pengetahuan.
Amazon Bedrock Knowledge Bases menawarkan berbagai opsi untuk menyesuaikan cara data Anda dicerna. Untuk informasi selengkapnya tentang menyesuaikan proses ini, lihatMenyesuaikan basis pengetahuan Anda.
Data terstruktur
Data terstruktur mengacu pada data tabular dalam format yang telah ditentukan sebelumnya oleh penyimpanan data yang ada di dalamnya. Pangkalan Pengetahuan Amazon Bedrock terhubung ke penyimpanan data terstruktur yang didukung melalui mesin kueri Amazon Redshift. Amazon Bedrock Knowledge Bases menyediakan mekanisme terkelola penuh yang menganalisis pola kueri, riwayat kueri, dan metadata skema untuk mengonversi kueri bahasa alami menjadi kueri. SQL Kueri yang dikonversi ini kemudian digunakan untuk mengambil informasi yang relevan dari sumber data yang didukung.
Amazon Bedrock Knowledge Bases mendukung koneksi ke layanan berikut untuk menambahkan penyimpanan data terstruktur ke basis pengetahuan Anda:
Amazon Redshift
AWS Glue Data Catalog (AWS Lake Formation)
Jika Anda menghubungkan basis pengetahuan Anda ke penyimpanan data terstruktur, Anda tidak perlu mengubah data menjadi embeddings vektor. Sebagai gantinya, Amazon Bedrock Knowledge Bases dapat langsung menanyakan penyimpanan data terstruktur. Selama kueri, Pangkalan Pengetahuan Amazon Bedrock dapat mengonversi kueri pengguna menjadi SQL kueri untuk mengambil data yang relevan dengan kueri pengguna dan menghasilkan respons yang lebih akurat. Anda juga dapat membuat SQL kueri tanpa mengambil data dan menggunakannya dalam alur kerja lain.
Sebagai contoh, repositori database berisi tabel berikut dengan informasi tentang pelanggan dan pembelian mereka:
ID Pelanggan | Jumlah yang dibeli pada tahun 2020 | Jumlah yang dibeli pada tahun 2021 | Jumlah yang dibeli pada tahun 2022 | Total jumlah yang dibeli hingga saat ini |
---|---|---|---|---|
1 | 200 | 300 | 500 | 1000 |
2 | 150 | 100 | 120 | 370 |
3 | 300 | 300 | 300 | 900 |
4 | 720 | 180 | 100 | 900 |
5 | 500 | 400 | 100 | 1000 |
6 | 900 | 800 | 1000 | 2700 |
7 | 470 | 420 | 400 | 1290 |
8 | 250 | 280 | 250 | 780 |
9 | 620 | 830 | 740 | 2190 |
10 | 300 | 200 | 300 | 800 |
Jika kueri pengguna mengatakan “beri saya ringkasan dari 5 pelanggan belanja teratas,” basis pengetahuan dapat melakukan hal berikut:
-
Ubah kueri menjadi SQL kueri.
-
Kembalikan kutipan dari tabel yang berisi berikut ini:
-
Kolom tabel yang relevan “ID Pelanggan” dan “Jumlah Total Pembelian Hingga Saat Ini”
-
Baris tabel yang berisi jumlah total pembelian untuk 10 pelanggan dengan belanja tertinggi
-
-
Hasilkan respons yang menyatakan pelanggan mana yang merupakan 5 pelanggan belanja teratas dan berapa banyak yang mereka beli.
Contoh lain dari kueri yang basis pengetahuan dapat menghasilkan kutipan tabel untuk meliputi:
-
“5 pelanggan teratas dengan pengeluaran pada tahun 2020"
-
“pelanggan teratas berdasarkan jumlah pembelian pada tahun 2020"
-
“5 pelanggan teratas berdasarkan jumlah pembelian mulai 2020-2022"
-
“5 pelanggan dengan pengeluaran tertinggi di 2020-2022"
-
“pelanggan dengan jumlah pembelian total kurang dari $10"
-
“5 pelanggan belanja terendah teratas”
Semakin spesifik atau rinci kueri, semakin banyak basis pengetahuan dapat mempersempit informasi yang tepat untuk dikembalikan. Misalnya, alih-alih kueri “10 pelanggan teratas dengan pengeluaran pada tahun 2020", kueri yang lebih spesifik adalah “temukan 10 jumlah total pembelian tertinggi hingga saat ini untuk pelanggan pada tahun 2020". Kueri spesifik mengacu pada nama kolom “Jumlah Total yang Dibeli Sampai Tanggal” di tabel database pengeluaran pelanggan, dan juga menunjukkan bahwa data harus diurutkan berdasarkan “tertinggi”.