Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dokumen
Bagian ini menjelaskan bagaimana Amazon Kendra mengindeks banyak format dokumen yang didukungnya dan bidang/atribut dokumen yang berbeda.
Jenis atau format dokumen
Amazon Kendra mendukung jenis atau format dokumen populer sepertiPDF,HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.
Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten HTML tabel (tabel) apa pun di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.
Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.
Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:
Jika Anda ingin menambahkan FAQ file, Anda menggunakan CreateFaqAPIuntuk menambahkan file yang disimpan dalam Amazon S3 ember. Anda dapat memilih antara CSV format dasar, CSV format yang menyertakan bidang/atribut khusus dalam header, dan JSON format yang menyertakan bidang khusus. Format default adalah dasarCSV.
Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.
Format dokumen | Diperlakukan sebagai | Bagaimana dokumen diperlakukan | Struktur asli |
---|---|---|---|
Format Dokumen Portabel (PDF) | HTML | Dikonversi keHTML, maka konten diekstraksi. | Tidak terstruktur |
HyperText Bahasa Markup () HTML | HTML | HTMLtag disaring untuk mengekstrak konten. Konten harus antara tag HTML awal dan penutup utama (<HTML>content</HTML> ). |
Semi-terstruktur |
Bahasa Markup yang Dapat Diperluas () XML | XML | XMLtag disaring untuk mengekstrak konten. | Semi-terstruktur |
Transformasi Bahasa Stylesheet Extensible () XSLT | XSLT | Tag disaring untuk mengekstrak konten. | Semi-terstruktur |
MarkDown (MD) | Teks biasa | Konten diekstraksi dengan MarkDown sintaks disertakan. | Semi-terstruktur |
Nilai Terpisah Koma () CSV | CSV | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Terstruktur untuk FAQ file, jika tidak semi-terstruktur |
Microsoft Excel (XLSdanXLSX) | XLS dan XLSX | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Semi-terstruktur |
JavaScript Notasi Objek () JSON | Teks biasa | Konten diekstraksi dengan JSON sintaks disertakan. | Semi-terstruktur |
Format Teks Kaya (RTF) | RTF | RTFsintaks disaring untuk mengekstrak konten. | Semi-terstruktur |
Microsoft PowerPoint (PPT) | PPT, PPTX | Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Microsoft Word | DOC, DOCX | Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Teks biasa (TXT) | TXT | Semua teks dalam dokumen teks diekstraksi. | Tidak terstruktur |
Atribut atau bidang dokumen
Dokumen memiliki atribut atau bidang yang terkait dengannya. Bidang dokumen adalah properti dokumen atau apa yang terkandung dalam struktur dokumen. Misalnya, setiap dokumen Anda mungkin berisi judul, teks badan, dan penulis. Anda juga dapat menambahkan bidang khusus untuk dokumen khusus Anda. Misalnya, jika indeks Anda mencari dokumen pajak, Anda dapat menentukan bidang khusus untuk jenis dokumen pajak seperti W-2, 1099, dan sebagainya.
Sebelum Anda dapat menggunakan bidang dokumen dalam kueri, itu harus dipetakan ke bidang indeks. Misalnya, bidang judul dapat dipetakan ke bidang_document_title
. Untuk informasi selengkapnya, lihat Bidang pemetaan. Untuk menambahkan bidang baru, Anda harus membuat bidang indeks untuk memetakan bidang tersebut. Anda membuat kolom indeks menggunakan konsol atau dengan menggunakan UpdateIndexAPI.
Anda dapat menggunakan bidang dokumen untuk memfilter tanggapan dan untuk membuat hasil pencarian segi. Misalnya, Anda dapat memfilter respons untuk hanya mengembalikan versi dokumen tertentu, atau Anda dapat memfilter pencarian untuk hanya mengembalikan 1099 jenis dokumen pajak yang cocok dengan istilah pencarian. Untuk informasi selengkapnya, lihat Memfilter dan pencarian faset.
Anda juga dapat menggunakan bidang dokumen untuk menyetel respons kueri secara manual. Misalnya, Anda dapat memilih untuk meningkatkan pentingnya bidang judul untuk menambah bobot yang diberikan ke Amazon Kendra bidang saat menentukan dokumen mana yang akan dikembalikan dalam respons. Untuk informasi selengkapnya, lihat Menyetel relevansi penelusuran.
Jika Anda menambahkan dokumen langsung ke indeks, Anda menentukan bidang dalam parameter masukan Dokumen ke BatchPutDocumentAPI. Anda menentukan nilai bidang kustom dalam array DocumentAttributeobjek. Jika Anda menggunakan sumber data, metode yang Anda gunakan untuk menambahkan bidang dokumen tergantung pada sumber data. Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.
Menggunakan bidang dokumen yang Amazon Kendra dicadangkan atau umum
Dengan UpdateIndex API, Anda dapat membuat kolom cadangan atau umum menggunakan DocumentMetadataConfigurationUpdates
dan menentukan nama bidang indeks Amazon Kendra
cadangan untuk dipetakan ke atribut/nama bidang dokumen yang setara. Anda juga dapat membuat bidang khusus. Jika Anda menggunakan konektor sumber data, sebagian besar menyertakan pemetaan bidang yang memetakan bidang dokumen sumber data Anda ke bidang Amazon Kendra indeks. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data.
Anda dapat mengonfigurasi Search
objek untuk menetapkan bidang sebagai dapat ditampilkan, facetable, dapat dicari, dan dapat diurutkan. Anda dapat mengonfigurasi Relevance
objek untuk mengatur urutan peringkat bidang, durasi peningkatan, atau periode waktu untuk diterapkan pada peningkatan, kesegaran, nilai kepentingan, dan nilai kepentingan yang dipetakan ke nilai bidang tertentu. Jika Anda menggunakan konsol, Anda dapat mengatur pengaturan pencarian untuk bidang dengan memilih opsi facet di menu navigasi. Untuk mengatur penyetelan relevansi, pilih opsi untuk mencari indeks Anda di menu navigasi, masukkan kueri, dan gunakan opsi panel samping untuk menyetel relevansi pencarian. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.
Amazon Kendra memiliki bidang dokumen cadangan atau umum berikut yang dapat Anda gunakan:
-
_authors
Daftar satu atau lebih penulis yang bertanggung jawab atas isi dokumen. -
_category
Sebuah kategori yang menempatkan dokumen dalam kelompok tertentu. -
_created_at
—Tanggal dan waktu dalam format ISO 8601 bahwa dokumen itu dibuat. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah. -
_data_source_id
—Pengidentifikasi sumber data yang berisi dokumen. -
_document_body
—Isi dokumen. -
_document_id
—Pengidentifikasi unik untuk dokumen. -
_document_title
—Judul dokumen. -
_excerpt_page_number
—Nomor halaman dalam PDF file tempat kutipan dokumen muncul. Jika indeks Anda dibuat sebelum 8 September 2020, Anda harus mengindeks ulang dokumen sebelum dapat menggunakan atribut ini. -
_faq_id
—Jika ini adalah dokumen tipe tanya jawab (FAQ), pengidentifikasi unik untuk dokumen. FAQ -
_file_type
—Jenis file dokumen, seperti pdf atau doc. -
_last_updated_at
—Tanggal dan waktu dalam format ISO 8601 bahwa dokumen terakhir diperbarui. Misalnya, 2012-03-25T 12:30:10 +01:00 adalah format tanggal-waktu ISO 8601 untuk 25 Maret 2012 pukul 12:30 (ditambah 10 detik) di Waktu Eropa Tengah. -
_source_uri
URI—Tempat dokumen tersedia. Misalnya, URI dokumen di situs web perusahaan. -
_version
—Pengidentifikasi untuk versi dokumen tertentu. -
_view_count
—Berapa kali dokumen telah dilihat. -
_language_code
(String) —Kode untuk bahasa yang berlaku untuk dokumen. Ini default ke bahasa Inggris jika Anda tidak menentukan bahasa. Untuk informasi selengkapnya tentang bahasa yang didukung, termasuk kodenya, lihat Menambahkan dokumen dalam bahasa selain bahasa Inggris.
Untuk bidang kustom, Anda membuat bidang ini menggunakan DocumentMetadataConfigurationUpdates
dengan UpdateIndex
API, seperti yang Anda lakukan saat membuat bidang cadangan atau umum. Anda harus mengatur tipe data yang sesuai untuk bidang kustom Anda. Jika Anda menggunakan konsol, Anda memperbarui bidang dengan memilih sumber data, memilih tindakan edit, dan kemudian melanjutkan di sebelah bagian pemetaan bidang untuk mengonfigurasi sumber data. Beberapa sumber data tidak mendukung penambahan bidang baru atau bidang khusus. Anda tidak dapat mengubah jenis bidang setelah Anda membuat bidang.
Berikut ini adalah jenis yang dapat Anda atur untuk bidang khusus:
-
Tanggal
-
Jumlah
-
String
-
Daftar string
Jika Anda menambahkan dokumen ke indeks menggunakan BatchPutDocumentAPI, Attributes
daftar bidang/atribut dokumen Anda dan Anda membuat bidang menggunakan objek. DocumentAttribute
Untuk dokumen yang diindeks dari sumber Amazon S3 data, Anda membuat bidang menggunakan file JSON metadata yang menyertakan informasi bidang.
Jika Anda menggunakan database yang didukung sebagai sumber data, Anda dapat mengonfigurasi bidang menggunakan opsi pemetaan bidang.