Merayapi halaman web untuk basis pengetahuan Amazon Bedrock Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Merayapi halaman web untuk basis pengetahuan Amazon Bedrock Anda

Amazon Bedrock menyediakan Web Crawler terhubung ke dan crawl yang telah URLs Anda pilih untuk digunakan di basis pengetahuan Amazon Bedrock Anda. Anda dapat merayapi halaman situs web sesuai dengan cakupan atau batasan yang ditetapkan untuk pilihan URLs Anda. Anda dapat merayapi halaman situs web menggunakan salah satu AWS Konsol Manajemen untuk Amazon Bedrock atau CreateDataSourceAPI(lihat Amazon Bedrock didukung dan SDKs AWS CLI).

catatan

Merayapi web URLs sebagai sumber data Anda dalam rilis pratinjau dan dapat berubah sewaktu-waktu.

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi.

Web Crawler menghormati robots.txt sesuai dengan 9309 RFC

Ada batasan berapa banyak item konten halaman web dan MB per item konten yang dapat dirayapi. Lihat Kuota untuk basis pengetahuan.

Fitur yang didukung

Web Crawler terhubung ke dan merayapi HTML halaman mulai dari seedURL, melintasi semua tautan anak di bawah domain dan jalur utama teratas yang sama. Jika salah satu HTML halaman mereferensikan dokumen yang didukung, Web Crawler akan mengambil dokumen-dokumen ini, terlepas dari apakah mereka berada dalam domain utama teratas yang sama. Anda dapat mengubah perilaku perayapan dengan mengubah konfigurasi crawling - lihat. Konfigurasi koneksi

Berikut ini didukung bagi Anda untuk:

  • Pilih beberapa URLs untuk dirayapi

  • Hormati arahan robots.txt standar seperti 'Allow' dan 'Disallow'

  • Batasi cakupan crawl dan secara opsional kecualikan URLs yang cocok dengan pola filter URLs

  • Batasi tingkat perayapan URLs

  • Melihat status URLs kunjungan saat merangkak di Amazon CloudWatch

Prasyarat

Untuk menggunakan Web Crawler, pastikan Anda:.

  • Periksa apakah Anda berwenang untuk merayapi sumber URLs Anda.

  • Memeriksa jalur ke robots.txt yang sesuai dengan sumber Anda URLs tidak menghalangi agar tidak dirayapi. URLs Web Crawler mematuhi standar robots.txt: secara disallow default jika robots.txt tidak ditemukan untuk situs web. Web Crawler menghormati robots.txt sesuai dengan 9309. RFC

  • Periksa apakah URL halaman sumber Anda dibuat JavaScript secara dinamis, karena perayapan konten yang dibuat secara dinamis saat ini tidak didukung. Anda dapat memeriksa ini dengan memasukkan ini di browser Anda: view-source:https://examplesite.com/site/. Jika body elemen hanya berisi div elemen dan sedikit atau tidak ada a href elemen, maka halaman kemungkinan dihasilkan secara dinamis. Anda dapat menonaktifkan JavaScript di browser Anda, memuat ulang halaman web, dan mengamati apakah konten dirender dengan benar dan berisi tautan ke halaman web yang Anda minati.

  • Aktifkan pengiriman CloudWatch Log untuk melihat status pekerjaan pengambilan data Anda untuk menelan konten web, dan jika tertentu URLs tidak dapat diambil.

catatan

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi.

Konfigurasi koneksi

Untuk informasi selengkapnya tentang cakupan sinkronisasi untuk crawlingURLs, filter inklusi/pengecualian, URL akses, sinkronisasi inkremental, dan cara kerjanya, pilih yang berikut ini:

Anda dapat membatasi cakupan crawl berdasarkan hubungan spesifik setiap halaman URL dengan seedURLs. URLs Untuk perayapan yang lebih cepat, Anda dapat URLs membatasi perayapan yang memiliki inang dan URL jalur awal benih URL yang sama. Untuk crawl yang lebih luas, Anda dapat memilih untuk merayapi URLs dengan host yang sama atau dalam subdomain benih mana pun. URL

Anda dapat memilih dari opsi berikut.

  • Default: Batasi perayapan ke halaman web milik host yang sama dan dengan URL jalur awal yang sama. Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agen/”. Saudara URLs seperti "https://aws.amazon.com/ec2/" tidak merangkak, misalnya.

  • Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti" https://aws.amazon.com /ec2".

  • Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan seed. URL Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/" maka setiap halaman web yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com

catatan

Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.

Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.

Anda dapat memasukkan atau mengecualikan tertentu sesuai URLs dengan ruang lingkup Anda. Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file. Jika Anda menentukan filter penyertaan dan pengecualian dan keduanya cocok dengan aURL, filter pengecualian akan diutamakan dan konten web tidak dirayapi.

penting

Filter pola ekspresi reguler bermasalah yang menyebabkan bencana mundur dan melihat ke depan ditolak.

Contoh pola filter ekspresi reguler untuk mengecualikan akhir URLs itu dengan “.pdf” atau lampiran halaman PDF web: “.*\ .pdf$

Anda dapat menggunakan Web Crawler untuk merayapi halaman situs web yang diizinkan untuk dirayapi.

Saat memilih situs web untuk dirayapi, Anda harus mematuhi Kebijakan Penggunaan yang Dapat Diterima Amazon dan semua persyaratan Amazon lainnya. Ingat bahwa Anda hanya harus menggunakan Web Crawler untuk mengindeks halaman web Anda sendiri, atau halaman web yang Anda memiliki otorisasi untuk dirayapi.

Web Crawler menghormati robots.txt sesuai dengan 9309 RFC

Setiap kali Web Crawler berjalan, ia mengambil konten untuk semua URLs yang dapat dijangkau dari sumber URLs dan yang cocok dengan lingkup dan filter. Untuk sinkronisasi tambahan setelah sinkronisasi pertama semua konten, Amazon Bedrock akan memperbarui basis pengetahuan Anda dengan konten baru dan yang dimodifikasi, dan akan menghapus konten lama yang tidak lagi ada. Kadang-kadang, crawler mungkin tidak dapat mengetahui apakah konten telah dihapus dari situs web; dan dalam hal ini akan salah di sisi melestarikan konten lama di basis pengetahuan Anda.

Untuk menyinkronkan sumber data Anda dengan basis pengetahuan Anda, gunakan StartIngestionJobAPIatau pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

penting

Semua data yang Anda sinkronkan dari sumber data Anda akan tersedia bagi siapa saja yang memiliki bedrock:Retrieve izin untuk mengambil data. Ini juga dapat mencakup data apa pun dengan izin sumber data terkontrol. Untuk informasi selengkapnya, lihat Izin basis pengetahuan.

Console

Langkah-langkah berikut mengonfigurasi Web Crawler untuk basis pengetahuan Amazon Bedrock Anda. Anda mengonfigurasi Web Crawler sebagai bagian dari langkah pembuatan basis pengetahuan di konsol.

  1. Masuk ke AWS Management Console menggunakan IAMperan dengan izin Amazon Bedrock, dan buka konsol Amazon Bedrock di. https://console.aws.amazon.com/bedrock/

  2. Dari panel navigasi kiri, pilih Basis pengetahuan.

  3. Di bagian Basis pengetahuan, pilih Buat basis pengetahuan.

  4. Berikan detail basis pengetahuan.

    1. Berikan nama basis pengetahuan dan deskripsi opsional.

    2. Berikan AWS Identity and Access Management peran untuk izin akses yang diperlukan yang diperlukan untuk membuat basis pengetahuan.

      catatan

      Bagian IAM peran dengan semua izin yang diperlukan dapat dibuat untuk Anda sebagai bagian dari langkah konsol untuk membuat basis pengetahuan. Setelah Anda menyelesaikan langkah-langkah untuk membuat basis pengetahuan, IAM peran dengan semua izin yang diperlukan diterapkan ke basis pengetahuan khusus Anda.

    3. Buat tag apa pun yang ingin Anda tetapkan ke basis pengetahuan Anda.

    Buka bagian berikutnya untuk mengonfigurasi sumber data Anda.

  5. Pilih Web Crawler sebagai sumber data Anda dan berikan detail konfigurasi.

    (Opsional) Ubah nama sumber Data default dan masukkan Deskripsi.

  6. Berikan Sumber URLs yang ingin URLs Anda jelajahi. Anda dapat menambahkan hingga 9 tambahan URLs dengan memilih Tambah Sumber URLs. Dengan menyediakan sumberURL, Anda mengonfirmasi bahwa Anda berwenang untuk merayapi domainnya.

  7. Periksa pengaturan lanjutan. Anda dapat secara opsional mengubah pengaturan default yang dipilih.

    Untuk KMS key pengaturan, Anda dapat memilih kunci khusus atau menggunakan kunci enkripsi data default yang disediakan.

    Saat mengubah data Anda menjadi embeddings, Amazon Bedrock mengenkripsi data transien Anda dengan kunci yang AWS memiliki dan mengelola, secara default. Anda dapat menggunakan KMS kunci Anda sendiri. Untuk informasi selengkapnya, lihat Enkripsi penyimpanan data sementara selama konsumsi data.

    Untuk setelan kebijakan penghapusan data, Anda dapat memilih:

    • Hapus: Menghapus semua data dari sumber data Anda yang diubah menjadi embeddings vektor setelah penghapusan basis pengetahuan atau sumber daya sumber data. Perhatikan bahwa penyimpanan vektor itu sendiri tidak dihapus, hanya data. Bendera ini diabaikan jika AWS akun dihapus.

    • Mempertahankan: Menyimpan semua data dari sumber data Anda yang diubah menjadi embeddings vektor setelah penghapusan basis pengetahuan atau sumber daya sumber data. Perhatikan bahwa penyimpanan vektor itu sendiri tidak dihapus jika Anda menghapus basis pengetahuan atau sumber daya sumber data.

  8. Pilih opsi untuk cakupan merayapi sumber URLs Anda.

    • Default: Batasi perayapan ke halaman web milik host yang sama dan dengan URL jalur awal yang sama. Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/" maka hanya jalur dan halaman web yang memanjang dari jalur ini yang akan dirayapi, seperti "https://aws.amazon.com/bedrock/agen/”. Saudara URLs seperti "https://aws.amazon.com/ec2/" tidak merangkak, misalnya.

    • Hanya host: Batasi perayapan ke halaman web milik host yang sama. Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/“, maka halaman web dengan" https://aws.amazon.com "juga akan dirayapi, seperti" https://aws.amazon.com /ec2".

    • Subdomain: Sertakan perayapan halaman web apa pun yang memiliki domain utama yang sama dengan seed. URL Misalnya, dengan benih URL "https://aws.amazon.com/bedrock/" maka setiap halaman web yang berisi “amazon.com” (subdomain) akan dirayapi, seperti "”. https://www.amazon.com

    catatan

    Pastikan Anda tidak merayapi halaman web yang berpotensi berlebihan. Tidak disarankan untuk merayapi situs web besar, seperti wikipedia.org, tanpa filter atau batasan cakupan. Merayapi situs web besar akan membutuhkan waktu yang sangat lama untuk dirayapi.

    Jenis file yang didukung dirayapi terlepas dari cakupannya dan jika tidak ada pola pengecualian untuk jenis file.

  9. Masukkan pelambatan maksimum kecepatan perayapan. Menelan URLs antara 1 dan 300 URLs per host per menit. Kecepatan merangkak yang lebih tinggi meningkatkan beban tetapi membutuhkan waktu lebih sedikit.

  10. Untuk pola URLRegex (opsional) Anda dapat menambahkan pola Sertakan atau Kecualikan pola dengan memasukkan pola ekspresi reguler di dalam kotak. Anda dapat menambahkan hingga 25 termasuk dan 25 mengecualikan pola filter dengan memilih Tambahkan pola baru. Pola include dan exclude dirayapi sesuai dengan cakupan Anda. Jika ada konflik, pola pengecualian diutamakan.

  11. Pilih konfigurasi chunking dan parsing default atau yang disesuaikan.

    1. Jika Anda memilih pengaturan khusus, pilih salah satu opsi chunking berikut:

      • Potongan ukuran tetap: Konten dibagi menjadi potongan-potongan teks dengan perkiraan ukuran token yang Anda tetapkan. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.

      • Potongan default: Konten dibagi menjadi potongan-potongan teks hingga 300 token. Jika satu dokumen atau konten berisi kurang dari 300 token, dokumen tersebut tidak dibagi lebih lanjut.

      • Chunking hierarkis: Konten yang diatur ke dalam struktur bersarang dari potongan orangtua-anak. Anda menetapkan ukuran token chunk induk maksimum dan ukuran token chunk anak maksimum. Anda juga menetapkan jumlah absolut token tumpang tindih antara potongan induk berturut-turut dan potongan anak berturut-turut.

      • Potongan semantik: Konten yang disusun ke dalam potongan teks atau kelompok kalimat yang serupa secara semantik. Anda mengatur jumlah maksimum kalimat di sekitar target/kalimat saat ini untuk dikelompokkan bersama (ukuran buffer). Anda juga menetapkan ambang batas persentil breakpoint untuk membagi teks menjadi potongan-potongan yang bermakna. Chunking semantik menggunakan model pondasi. Lihat Amazon Bedrock harga untuk informasi tentang biaya model pondasi.

      • Tidak ada potongan: Setiap dokumen diperlakukan sebagai potongan teks tunggal. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah.

      catatan

      Anda tidak dapat mengubah strategi chunking setelah Anda membuat sumber data.

    2. Anda dapat memilih untuk menggunakan Amazon Bedrock model dasar untuk mengurai dokumen untuk mengurai lebih dari teks standar. Anda dapat mengurai data tabular dalam dokumen dengan strukturnya utuh, misalnya. Lihat Amazon Bedrock harga untuk informasi tentang biaya model pondasi.

    3. Anda dapat memilih untuk menggunakan AWS Lambda berfungsi untuk menyesuaikan strategi chunking Anda dan bagaimana atribut/bidang metadata dokumen Anda diperlakukan dan dicerna. Berikan Amazon S3 lokasi bucket untuk input dan output fungsi Lambda.

    Pergi ke bagian berikutnya untuk mengkonfigurasi penyimpanan vektor Anda.

  12. Pilih model untuk mengubah data Anda menjadi embeddings vektor.

    Buat toko vektor untuk memungkinkan Amazon Bedrock menyimpan, memperbarui, dan mengelola penyematan. Anda dapat dengan cepat membuat toko vektor baru atau memilih dari toko vektor yang didukung yang telah Anda buat. Jika Anda membuat penyimpanan vektor baru, koleksi pencarian vektor Amazon OpenSearch Tanpa Server dan indeks dengan bidang wajib disiapkan untuk Anda. Jika Anda memilih dari penyimpanan vektor yang didukung, Anda harus memetakan nama bidang vektor dan nama bidang metadata.

    Buka bagian berikutnya untuk meninjau konfigurasi basis pengetahuan Anda.

  13. Periksa detail basis pengetahuan Anda. Anda dapat mengedit bagian apa pun sebelum melanjutkan dan membuat basis pengetahuan Anda.

    catatan

    Waktu yang dibutuhkan untuk membuat basis pengetahuan tergantung pada konfigurasi spesifik Anda. Ketika pembuatan basis pengetahuan telah selesai, status basis pengetahuan berubah menjadi keadaan siap atau tersedia.

    Setelah basis pengetahuan Anda siap dan tersedia, sinkronkan sumber data Anda untuk pertama kalinya dan kapan pun Anda ingin memperbarui konten Anda. Pilih basis pengetahuan Anda di konsol dan pilih Sinkronkan dalam bagian ikhtisar sumber data.

CLI

Berikut ini adalah contoh konfigurasi Web Crawler untuk basis pengetahuan Amazon Bedrock Anda.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }