Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Bagaimana content chunking bekerja untuk basis pengetahuan

Mode fokus
Bagaimana content chunking bekerja untuk basis pengetahuan - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Saat menelan data Anda, Amazon Bedrock pertama-tama membagi dokumen atau konten Anda menjadi potongan-potongan yang dapat dikelola untuk pengambilan data yang efisien. Potongan kemudian dikonversi menjadi embeddings dan ditulis ke indeks vektor (representasi vektor data), sambil mempertahankan pemetaan ke dokumen asli. Penyematan vektor memungkinkan teks dibandingkan secara kuantitatif.

Chunking standar

Amazon Bedrock mendukung pendekatan standar berikut untuk chunking:

  • Potongan ukuran tetap: Anda dapat mengonfigurasi ukuran potongan yang diinginkan dengan menentukan jumlah token per potongan, dan persentase tumpang tindih, memberikan fleksibilitas untuk menyelaraskan dengan kebutuhan spesifik Anda. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.

  • Chunking default: Membagi konten menjadi potongan teks sekitar 300 token. Proses chunking menghormati batas-batas kalimat, memastikan bahwa kalimat lengkap dipertahankan dalam setiap potongan.

Anda juga dapat memilih no chunking untuk dokumen Anda. Setiap dokumen diperlakukan satu potongan teks. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah sebelum memilih no chunking sebagai pendekatan/strategi chunking Anda. Jika Anda memilih tidak ada chunking untuk dokumen Anda, Anda tidak dapat melihat nomor halaman dalam kutipan atau filter berdasarkan bidang/atribut x-amz-bedrock-kb- document-page-number metadata. Bidang ini dibuat secara otomatis hanya untuk file PDF dan jika Anda menggunakan Amazon OpenSearch Tanpa Server sebagai penyimpanan vektor Anda.

Chunking hierarkis

Chunking hierarkis melibatkan pengorganisasian informasi ke dalam struktur bersarang dari potongan anak dan orang tua. Saat membuat sumber data, Anda dapat menentukan ukuran potongan induk, ukuran potongan anak, dan jumlah token yang tumpang tindih di antara setiap potongan. Selama pengambilan, sistem awalnya mengambil potongan anak, tetapi menggantinya dengan potongan induk yang lebih luas sehingga memberikan model dengan konteks yang lebih komprehensif.

Penyematan teks kecil lebih tepat, tetapi pengambilan bertujuan untuk konteks yang komprehensif. Sistem chunking hierarkis menyeimbangkan kebutuhan ini dengan mengganti potongan anak yang diambil dengan potongan induknya bila sesuai.

Untuk chunking hierarkis, basis pengetahuan Amazon Bedrock mendukung penetapan dua level atau kedalaman berikut untuk chunking:

  • Induk: Anda mengatur ukuran token potongan induk maksimum.

  • Anak: Anda mengatur ukuran token potongan anak maksimum.

Anda juga mengatur token tumpang tindih antar potongan. Ini adalah jumlah absolut token tumpang tindih antara potongan induk berturut-turut dan potongan anak berturut-turut.

Chunking semantik

Chunking semantik adalah teknik pemrosesan bahasa alami yang membagi teks menjadi potongan-potongan yang bermakna untuk meningkatkan pemahaman dan pengambilan informasi. Ini bertujuan untuk meningkatkan akurasi pengambilan dengan berfokus pada konten semantik daripada hanya struktur sintaksis. Dengan demikian, ini dapat memfasilitasi ekstraksi dan manipulasi informasi yang relevan dengan lebih tepat.

Saat mengonfigurasi chunking semantik, Anda memiliki opsi untuk menentukan parameter hiper berikut.

  • Token maksimum: Jumlah maksimum token yang harus dimasukkan dalam satu potongan, sambil menghormati batas kalimat.

  • Ukuran buffer: Untuk kalimat tertentu, ukuran buffer mendefinisikan jumlah kalimat di sekitarnya yang akan ditambahkan untuk pembuatan embeddings. Misalnya, ukuran buffer 1 menghasilkan 3 kalimat (kalimat saat ini, sebelumnya dan berikutnya) untuk digabungkan dan disematkan. Parameter ini dapat mempengaruhi seberapa banyak teks diperiksa bersama untuk menentukan batas setiap potongan, memengaruhi granularitas dan koherensi potongan yang dihasilkan. Ukuran buffer yang lebih besar mungkin menangkap lebih banyak konteks tetapi juga dapat menimbulkan noise, sementara ukuran buffer yang lebih kecil mungkin kehilangan konteks penting tetapi memastikan chunking yang lebih tepat.

  • Ambang batas persentil breakpoint: Ambang batas persentil jarak/perbedaan kalimat untuk menggambar breakpoint antar kalimat. Ambang batas yang lebih tinggi membutuhkan kalimat agar lebih dapat dibedakan agar dapat dibagi menjadi potongan-potongan yang berbeda. Ambang batas yang lebih tinggi menghasilkan potongan yang lebih sedikit dan biasanya ukuran potongan rata-rata yang lebih besar.

    catatan

    Ada biaya tambahan untuk menggunakan chunking semantik karena penggunaan model pondasi. Biaya tergantung pada jumlah data yang Anda miliki. Lihat harga Amazon Bedrock untuk informasi lebih lanjut tentang biaya model pondasi.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.