Jenis atau format dokumen - Amazon Kendra

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jenis atau format dokumen

Amazon Kendra mendukung jenis atau format dokumen populer sepertiPDF,HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.

Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten HTML tabel (tabel) apa pun di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.

Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.

Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:

Jika Anda ingin menambahkan FAQ file, Anda menggunakan CreateFaqAPIuntuk menambahkan file yang disimpan dalam file Amazon S3 bucket. Anda dapat memilih antara CSV format dasar, CSV format yang menyertakan bidang/atribut pabean di header, dan JSON format yang menyertakan bidang khusus. Format defaultnya adalah dasarCSV.

Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.

Format dokumen Diperlakukan sebagai Bagaimana dokumen diperlakukan Struktur asli
Format Dokumen Portabel (PDF) HTML Dikonversi keHTML, maka konten diekstraksi. Tidak terstruktur
HyperText Bahasa Markup () HTML HTML HTMLtag disaring untuk mengekstrak konten. Konten harus antara tag HTML awal dan penutup utama (<HTML>content</HTML>). Semi-terstruktur
Bahasa Markup yang Dapat Diperluas () XML XML XMLtag disaring untuk mengekstrak konten. Semi-terstruktur
Transformasi Bahasa Stylesheet Extensible () XSLT XSLT Tag disaring untuk mengekstrak konten. Semi-terstruktur
MarkDown (MD) Teks biasa Konten diekstraksi dengan MarkDown sintaks disertakan. Semi-terstruktur
Nilai Terpisah Koma () CSV CSV Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. Terstruktur untuk FAQ file, jika tidak semi-terstruktur
Microsoft Excel (XLSdanXLSX) XLSdan XLSX Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. Semi-terstruktur
JavaScript Notasi Objek () JSON Teks biasa Konten diekstraksi dengan JSON sintaks disertakan. Semi-terstruktur
Format Teks Kaya (RTF) RTF RTFsintaks disaring untuk mengekstrak konten. Semi-terstruktur
Microsoft PowerPoint (PPT) PPT, PPTX Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. Tidak terstruktur
Microsoft Word DOC, DOCX Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. Tidak terstruktur
Teks biasa (TXT) TXT Semua teks dalam dokumen teks diekstraksi. Tidak terstruktur