Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Bagian ini menjelaskan bagaimana Amazon Kendra mengindeks banyak format dokumen yang didukungnya dan bidang/atribut dokumen yang berbeda.
Jenis atau format dokumen
Amazon Kendra mendukung jenis atau format dokumen populer seperti PDF, HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.
Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten tabular apa pun (tabel HTML) di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.
Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.
Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:
Jika Anda ingin menambahkan file FAQ, Anda menggunakan CreateFaqAPI untuk menambahkan file yang disimpan dalam Amazon S3 bucket. Anda dapat memilih antara format CSV dasar, format CSV yang menyertakan bidang/atribut khusus dalam header, dan format JSON yang menyertakan bidang kustom. Format defaultnya adalah CSV dasar.
Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.
Format dokumen | Diperlakukan sebagai | Bagaimana dokumen diperlakukan | Struktur asli |
---|---|---|---|
Format Dokumen Portabel (PDF) | HTML | Dikonversi ke HTML, maka konten diekstraksi. | Tidak terstruktur |
HyperText Bahasa Markup (HTML) | HTML | Tag HTML disaring untuk mengekstrak konten. Konten harus antara tag HTML awal dan penutup utama (<HTML>content</HTML> ). |
Semi-terstruktur |
Bahasa Markup yang Dapat Diperluas (XHTML) | XML | Tag XHTML disaring untuk mengekstrak konten. | Semi-terstruktur |
Transformasi Bahasa Stylesheet yang Dapat Diperluas (XSLT) | XSLT | Tag disaring untuk mengekstrak konten. | Semi-terstruktur |
MarkDown (MD) | Teks biasa | Konten diekstraksi dengan MarkDown sintaks disertakan. | Semi-terstruktur |
Nilai Terpisah Koma (CSV) | CSV | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Terstruktur untuk file FAQ, jika tidak semi-terstruktur |
Microsoft Excel (XLS dan XLSX) | XLS dan XLSX | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Semi-terstruktur |
JavaScript Notasi Objek (JSON) | Teks biasa | Konten diekstraksi dengan sintaks JSON disertakan. | Semi-terstruktur |
Format Teks Kaya (RTF) | RTF | Sintaks RTF disaring untuk mengekstrak konten. | Semi-terstruktur |
Microsoft PowerPoint (PPT) | PPT, PPTX | Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Microsoft Word | DOK, DOCX | Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Teks biasa (TXT) | TXT | Semua teks dalam dokumen teks diekstraksi. | Tidak terstruktur |
Atribut atau bidang dokumen
Dokumen memiliki atribut atau bidang yang terkait dengannya. Bidang dokumen adalah properti dokumen atau apa yang terkandung dalam struktur dokumen. Misalnya, setiap dokumen Anda mungkin berisi judul, teks badan, dan penulis. Anda juga dapat menambahkan bidang khusus untuk dokumen khusus Anda. Misalnya, jika indeks Anda mencari dokumen pajak, Anda dapat menentukan bidang khusus untuk jenis dokumen pajak seperti W-2, 1099, dan sebagainya.
Sebelum Anda dapat menggunakan bidang dokumen dalam kueri, itu harus dipetakan ke bidang indeks. Misalnya, bidang judul dapat dipetakan ke bidang_document_title
. Untuk informasi selengkapnya, lihat Bidang pemetaan. Untuk menambahkan bidang baru, Anda harus membuat bidang indeks untuk memetakan bidang tersebut. Anda membuat kolom indeks menggunakan konsol atau dengan menggunakan UpdateIndexAPI.
Anda dapat menggunakan bidang dokumen untuk memfilter tanggapan dan untuk membuat hasil pencarian segi. Misalnya, Anda dapat memfilter respons untuk hanya mengembalikan versi dokumen tertentu, atau Anda dapat memfilter pencarian untuk hanya mengembalikan 1099 jenis dokumen pajak yang cocok dengan istilah pencarian. Untuk informasi selengkapnya, lihat Memfilter dan pencarian faset.
Anda juga dapat menggunakan bidang dokumen untuk menyetel respons kueri secara manual. Misalnya, Anda dapat memilih untuk meningkatkan pentingnya bidang judul untuk menambah bobot yang diberikan ke Amazon Kendra bidang saat menentukan dokumen mana yang akan dikembalikan dalam respons. Untuk informasi selengkapnya, lihat Menyetel relevansi penelusuran.
Jika Anda menambahkan dokumen secara langsung ke indeks, Anda menentukan bidang dalam parameter masukan Dokumen ke BatchPutDocumentAPI. Anda menentukan nilai bidang kustom dalam array DocumentAttributeobjek. Jika Anda menggunakan sumber data, metode yang Anda gunakan untuk menambahkan bidang dokumen tergantung pada sumber data. Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.
Menggunakan bidang dokumen yang Amazon Kendra dicadangkan atau umum
Dengan UpdateIndex API, Anda dapat membuat kolom cadangan atau umum menggunakan DocumentMetadataConfigurationUpdates
dan menentukan nama bidang indeks Amazon Kendra
cadangan untuk dipetakan ke atribut/nama bidang dokumen yang setara. Anda juga dapat membuat bidang khusus. Jika Anda menggunakan konektor sumber data, sebagian besar menyertakan pemetaan bidang yang memetakan bidang dokumen sumber data Anda ke bidang Amazon Kendra indeks. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data.
Anda dapat mengonfigurasi Search
objek untuk menetapkan bidang sebagai dapat ditampilkan, facetable, dapat dicari, dan dapat diurutkan. Anda dapat mengonfigurasi Relevance
objek untuk mengatur urutan peringkat bidang, durasi peningkatan, atau periode waktu untuk diterapkan pada peningkatan, kesegaran, nilai kepentingan, dan nilai kepentingan yang dipetakan ke nilai bidang tertentu. Jika Anda menggunakan konsol, Anda dapat mengatur pengaturan pencarian untuk bidang dengan memilih opsi facet di menu navigasi. Untuk mengatur penyetelan relevansi, pilih opsi untuk mencari indeks Anda di menu navigasi, masukkan kueri, dan gunakan opsi panel samping untuk menyetel relevansi pencarian. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.
Amazon Kendra memiliki bidang dokumen cadangan atau umum berikut yang dapat Anda gunakan:
-
_authors
Daftar satu atau lebih penulis yang bertanggung jawab atas isi dokumen. -
_category
Sebuah kategori yang menempatkan dokumen dalam kelompok tertentu. -
_created_at
—Tanggal dan waktu dalam format ISO 8601 bahwa dokumen itu dibuat. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah. -
_data_source_id
—Pengidentifikasi sumber data yang berisi dokumen. -
_document_body
—Isi dokumen. -
_document_id
—Pengenal unik untuk dokumen. -
_document_title
—Judul dokumen. -
_excerpt_page_number
—Nomor halaman dalam file PDF tempat kutipan dokumen muncul. Jika indeks Anda dibuat sebelum 8 September 2020, Anda harus mengindeks ulang dokumen sebelum dapat menggunakan atribut ini. -
_faq_id
—Jika ini adalah dokumen tipe tanya jawab (FAQ), pengenal unik untuk FAQ. -
_file_type
—Jenis file dokumen, seperti pdf atau doc. -
_last_updated_at
Tanggal dan waktu dalam format ISO 8601 bahwa dokumen terakhir diperbarui. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah. -
_source_uri
—URI tempat dokumen tersedia. Misalnya, URI dokumen di situs web perusahaan. -
_version
—Pengidentifikasi untuk versi dokumen tertentu. -
_view_count
—Berapa kali dokumen telah dilihat. -
_language_code
(String) —Kode untuk bahasa yang berlaku untuk dokumen. Ini default ke bahasa Inggris jika Anda tidak menentukan bahasa. Untuk informasi selengkapnya tentang bahasa yang didukung, termasuk kodenya, lihat Menambahkan dokumen dalam bahasa selain bahasa Inggris.
Untuk bidang kustom, Anda membuat bidang ini menggunakan DocumentMetadataConfigurationUpdates
UpdateIndex
API, seperti yang Anda lakukan saat membuat bidang cadangan atau umum. Anda harus mengatur tipe data yang sesuai untuk bidang kustom Anda. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data. Beberapa sumber data tidak mendukung penambahan bidang baru atau bidang khusus. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.
Berikut ini adalah jenis yang dapat Anda atur untuk bidang khusus:
-
Tanggal
-
Jumlah
-
String
-
Daftar string
Jika Anda menambahkan dokumen ke indeks menggunakan BatchPutDocumentAPI, Attributes
daftar bidang/atribut dokumen Anda dan Anda membuat bidang menggunakan objek. DocumentAttribute
Untuk dokumen yang diindeks dari sumber Amazon S3 data, Anda membuat bidang menggunakan file metadata JSON yang menyertakan informasi bidang.
Jika Anda menggunakan database yang didukung sebagai sumber data, Anda dapat mengonfigurasi bidang menggunakan opsi pemetaan bidang.