Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Dokumen

Mode fokus
Dokumen - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bagian ini menjelaskan bagaimana Amazon Kendra mengindeks banyak format dokumen yang didukungnya dan bidang/atribut dokumen yang berbeda.

Jenis atau format dokumen

Amazon Kendra mendukung jenis atau format dokumen populer seperti PDF, HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.

Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten tabular apa pun (tabel HTML) di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.

Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.

Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:

Jika Anda ingin menambahkan file FAQ, Anda menggunakan CreateFaqAPI untuk menambahkan file yang disimpan dalam Amazon S3 bucket. Anda dapat memilih antara format CSV dasar, format CSV yang menyertakan bidang/atribut khusus dalam header, dan format JSON yang menyertakan bidang kustom. Format defaultnya adalah CSV dasar.

Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.

Format dokumen Diperlakukan sebagai Bagaimana dokumen diperlakukan Struktur asli
Format Dokumen Portabel (PDF) HTML Dikonversi ke HTML, maka konten diekstraksi. Tidak terstruktur
HyperText Bahasa Markup (HTML) HTML Tag HTML disaring untuk mengekstrak konten. Konten harus antara tag HTML awal dan penutup utama (<HTML>content</HTML>). Semi-terstruktur
Bahasa Markup yang Dapat Diperluas (XHTML) XML Tag XHTML disaring untuk mengekstrak konten. Semi-terstruktur
Transformasi Bahasa Stylesheet yang Dapat Diperluas (XSLT) XSLT Tag disaring untuk mengekstrak konten. Semi-terstruktur
MarkDown (MD) Teks biasa Konten diekstraksi dengan MarkDown sintaks disertakan. Semi-terstruktur
Nilai Terpisah Koma (CSV) CSV Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. Terstruktur untuk file FAQ, jika tidak semi-terstruktur
Microsoft Excel (XLS dan XLSX) XLS dan XLSX Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. Semi-terstruktur
JavaScript Notasi Objek (JSON) Teks biasa Konten diekstraksi dengan sintaks JSON disertakan. Semi-terstruktur
Format Teks Kaya (RTF) RTF Sintaks RTF disaring untuk mengekstrak konten. Semi-terstruktur
Microsoft PowerPoint (PPT) PPT, PPTX Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. Tidak terstruktur
Microsoft Word DOK, DOCX Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. Tidak terstruktur
Teks biasa (TXT) TXT Semua teks dalam dokumen teks diekstraksi. Tidak terstruktur

Atribut atau bidang dokumen

Dokumen memiliki atribut atau bidang yang terkait dengannya. Bidang dokumen adalah properti dokumen atau apa yang terkandung dalam struktur dokumen. Misalnya, setiap dokumen Anda mungkin berisi judul, teks badan, dan penulis. Anda juga dapat menambahkan bidang khusus untuk dokumen khusus Anda. Misalnya, jika indeks Anda mencari dokumen pajak, Anda dapat menentukan bidang khusus untuk jenis dokumen pajak seperti W-2, 1099, dan sebagainya.

Sebelum Anda dapat menggunakan bidang dokumen dalam kueri, itu harus dipetakan ke bidang indeks. Misalnya, bidang judul dapat dipetakan ke bidang_document_title. Untuk informasi selengkapnya, lihat Bidang pemetaan. Untuk menambahkan bidang baru, Anda harus membuat bidang indeks untuk memetakan bidang tersebut. Anda membuat kolom indeks menggunakan konsol atau dengan menggunakan UpdateIndexAPI.

Anda dapat menggunakan bidang dokumen untuk memfilter tanggapan dan untuk membuat hasil pencarian segi. Misalnya, Anda dapat memfilter respons untuk hanya mengembalikan versi dokumen tertentu, atau Anda dapat memfilter pencarian untuk hanya mengembalikan 1099 jenis dokumen pajak yang cocok dengan istilah pencarian. Untuk informasi selengkapnya, lihat Memfilter dan pencarian faset.

Anda juga dapat menggunakan bidang dokumen untuk menyetel respons kueri secara manual. Misalnya, Anda dapat memilih untuk meningkatkan pentingnya bidang judul untuk menambah bobot yang diberikan ke Amazon Kendra bidang saat menentukan dokumen mana yang akan dikembalikan dalam respons. Untuk informasi selengkapnya, lihat Menyetel relevansi penelusuran.

Jika Anda menambahkan dokumen secara langsung ke indeks, Anda menentukan bidang dalam parameter masukan Dokumen ke BatchPutDocumentAPI. Anda menentukan nilai bidang kustom dalam array DocumentAttributeobjek. Jika Anda menggunakan sumber data, metode yang Anda gunakan untuk menambahkan bidang dokumen tergantung pada sumber data. Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.

Menggunakan bidang dokumen yang Amazon Kendra dicadangkan atau umum

Dengan UpdateIndex API, Anda dapat membuat kolom cadangan atau umum menggunakan DocumentMetadataConfigurationUpdates dan menentukan nama bidang indeks Amazon Kendra cadangan untuk dipetakan ke atribut/nama bidang dokumen yang setara. Anda juga dapat membuat bidang khusus. Jika Anda menggunakan konektor sumber data, sebagian besar menyertakan pemetaan bidang yang memetakan bidang dokumen sumber data Anda ke bidang Amazon Kendra indeks. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data.

Anda dapat mengonfigurasi Search objek untuk menetapkan bidang sebagai dapat ditampilkan, facetable, dapat dicari, dan dapat diurutkan. Anda dapat mengonfigurasi Relevance objek untuk mengatur urutan peringkat bidang, durasi peningkatan, atau periode waktu untuk diterapkan pada peningkatan, kesegaran, nilai kepentingan, dan nilai kepentingan yang dipetakan ke nilai bidang tertentu. Jika Anda menggunakan konsol, Anda dapat mengatur pengaturan pencarian untuk bidang dengan memilih opsi facet di menu navigasi. Untuk mengatur penyetelan relevansi, pilih opsi untuk mencari indeks Anda di menu navigasi, masukkan kueri, dan gunakan opsi panel samping untuk menyetel relevansi pencarian. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.

Amazon Kendra memiliki bidang dokumen cadangan atau umum berikut yang dapat Anda gunakan:

  • _authorsDaftar satu atau lebih penulis yang bertanggung jawab atas isi dokumen.

  • _categorySebuah kategori yang menempatkan dokumen dalam kelompok tertentu.

  • _created_at—Tanggal dan waktu dalam format ISO 8601 bahwa dokumen itu dibuat. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah.

  • _data_source_id—Pengidentifikasi sumber data yang berisi dokumen.

  • _document_body—Isi dokumen.

  • _document_id—Pengenal unik untuk dokumen.

  • _document_title—Judul dokumen.

  • _excerpt_page_number—Nomor halaman dalam file PDF tempat kutipan dokumen muncul. Jika indeks Anda dibuat sebelum 8 September 2020, Anda harus mengindeks ulang dokumen sebelum dapat menggunakan atribut ini.

  • _faq_id—Jika ini adalah dokumen tipe tanya jawab (FAQ), pengenal unik untuk FAQ.

  • _file_type—Jenis file dokumen, seperti pdf atau doc.

  • _last_updated_atTanggal dan waktu dalam format ISO 8601 bahwa dokumen terakhir diperbarui. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah.

  • _source_uri—URI tempat dokumen tersedia. Misalnya, URI dokumen di situs web perusahaan.

  • _version—Pengidentifikasi untuk versi dokumen tertentu.

  • _view_count—Berapa kali dokumen telah dilihat.

  • _language_code(String) —Kode untuk bahasa yang berlaku untuk dokumen. Ini default ke bahasa Inggris jika Anda tidak menentukan bahasa. Untuk informasi selengkapnya tentang bahasa yang didukung, termasuk kodenya, lihat Menambahkan dokumen dalam bahasa selain bahasa Inggris.

Untuk bidang kustom, Anda membuat bidang ini menggunakan DocumentMetadataConfigurationUpdates UpdateIndex API, seperti yang Anda lakukan saat membuat bidang cadangan atau umum. Anda harus mengatur tipe data yang sesuai untuk bidang kustom Anda. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data. Beberapa sumber data tidak mendukung penambahan bidang baru atau bidang khusus. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.

Berikut ini adalah jenis yang dapat Anda atur untuk bidang khusus:

  • Tanggal

  • Jumlah

  • String

  • Daftar string

Jika Anda menambahkan dokumen ke indeks menggunakan BatchPutDocumentAPI, Attributes daftar bidang/atribut dokumen Anda dan Anda membuat bidang menggunakan objek. DocumentAttribute

Untuk dokumen yang diindeks dari sumber Amazon S3 data, Anda membuat bidang menggunakan file metadata JSON yang menyertakan informasi bidang.

Jika Anda menggunakan database yang didukung sebagai sumber data, Anda dapat mengonfigurasi bidang menggunakan opsi pemetaan bidang.

Di halaman ini

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.