Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Saat menelan data Anda, Amazon Bedrock pertama-tama membagi dokumen atau konten Anda menjadi potongan-potongan yang dapat dikelola untuk pengambilan data yang efisien. Potongan kemudian dikonversi menjadi embeddings dan ditulis ke indeks vektor (representasi vektor data), sambil mempertahankan pemetaan ke dokumen asli. Penyematan vektor memungkinkan teks dibandingkan secara kuantitatif.
Chunking standar
Amazon Bedrock mendukung pendekatan standar berikut untuk chunking:
-
Potongan ukuran tetap: Anda dapat mengonfigurasi ukuran potongan yang diinginkan dengan menentukan jumlah token per potongan, dan persentase tumpang tindih, memberikan fleksibilitas untuk menyelaraskan dengan kebutuhan spesifik Anda. Anda dapat mengatur jumlah maksimum token yang tidak boleh melebihi potongan dan persentase tumpang tindih antara potongan berturut-turut.
-
Chunking default: Membagi konten menjadi potongan teks sekitar 300 token. Proses chunking menghormati batas-batas kalimat, memastikan bahwa kalimat lengkap dipertahankan dalam setiap potongan.
Anda juga dapat memilih no chunking untuk dokumen Anda. Setiap dokumen diperlakukan satu potongan teks. Anda mungkin ingin pra-proses dokumen Anda dengan membaginya menjadi file terpisah sebelum memilih no chunking sebagai pendekatan/strategi chunking Anda. Jika Anda memilih tidak ada chunking untuk dokumen Anda, Anda tidak dapat melihat nomor halaman dalam kutipan atau filter berdasarkan bidang/atribut x-amz-bedrock-kb- document-page-number metadata. Bidang ini dibuat secara otomatis hanya untuk file PDF dan jika Anda menggunakan Amazon OpenSearch Tanpa Server sebagai penyimpanan vektor Anda.
Chunking hierarkis
Chunking hierarkis melibatkan pengorganisasian informasi ke dalam struktur bersarang dari potongan anak dan orang tua. Saat membuat sumber data, Anda dapat menentukan ukuran potongan induk, ukuran potongan anak, dan jumlah token yang tumpang tindih di antara setiap potongan. Selama pengambilan, sistem awalnya mengambil potongan anak, tetapi menggantinya dengan potongan induk yang lebih luas sehingga memberikan model dengan konteks yang lebih komprehensif.
Penyematan teks kecil lebih tepat, tetapi pengambilan bertujuan untuk konteks yang komprehensif. Sistem chunking hierarkis menyeimbangkan kebutuhan ini dengan mengganti potongan anak yang diambil dengan potongan induknya bila sesuai.
Untuk chunking hierarkis, basis pengetahuan Amazon Bedrock mendukung penetapan dua level atau kedalaman berikut untuk chunking:
-
Induk: Anda mengatur ukuran token potongan induk maksimum.
-
Anak: Anda mengatur ukuran token potongan anak maksimum.
Anda juga mengatur token tumpang tindih antar potongan. Ini adalah jumlah absolut token tumpang tindih antara potongan induk berturut-turut dan potongan anak berturut-turut.
Chunking semantik
Chunking semantik adalah teknik pemrosesan bahasa alami yang membagi teks menjadi potongan-potongan yang bermakna untuk meningkatkan pemahaman dan pengambilan informasi. Ini bertujuan untuk meningkatkan akurasi pengambilan dengan berfokus pada konten semantik daripada hanya struktur sintaksis. Dengan demikian, ini dapat memfasilitasi ekstraksi dan manipulasi informasi yang relevan dengan lebih tepat.
Saat mengonfigurasi chunking semantik, Anda memiliki opsi untuk menentukan parameter hiper berikut.
-
Token maksimum: Jumlah maksimum token yang harus dimasukkan dalam satu potongan, sambil menghormati batas kalimat.
-
Ukuran buffer: Untuk kalimat tertentu, ukuran buffer mendefinisikan jumlah kalimat di sekitarnya yang akan ditambahkan untuk pembuatan embeddings. Misalnya, ukuran buffer 1 menghasilkan 3 kalimat (kalimat saat ini, sebelumnya dan berikutnya) untuk digabungkan dan disematkan. Parameter ini dapat mempengaruhi seberapa banyak teks diperiksa bersama untuk menentukan batas setiap potongan, memengaruhi granularitas dan koherensi potongan yang dihasilkan. Ukuran buffer yang lebih besar mungkin menangkap lebih banyak konteks tetapi juga dapat menimbulkan noise, sementara ukuran buffer yang lebih kecil mungkin kehilangan konteks penting tetapi memastikan chunking yang lebih tepat.
-
Ambang batas persentil breakpoint: Ambang batas persentil jarak/perbedaan kalimat untuk menggambar breakpoint antar kalimat. Ambang batas yang lebih tinggi membutuhkan kalimat agar lebih dapat dibedakan agar dapat dibagi menjadi potongan-potongan yang berbeda. Ambang batas yang lebih tinggi menghasilkan potongan yang lebih sedikit dan biasanya ukuran potongan rata-rata yang lebih besar.
catatan
Ada biaya tambahan untuk menggunakan chunking semantik karena penggunaan model pondasi. Biaya tergantung pada jumlah data yang Anda miliki. Lihat harga Amazon Bedrock
untuk informasi lebih lanjut tentang biaya model pondasi.