Jenis atau format dokumen

Amazon Kendra mendukung jenis atau format dokumen populer sepertiPDF,HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.

Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten HTML tabel (tabel) apa pun di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.

Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.

Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:

Jika Anda ingin menambahkan FAQ file, Anda menggunakan CreateFaqAPIuntuk menambahkan file yang disimpan dalam file Amazon S3 bucket. Anda dapat memilih antara CSV format dasar, CSV format yang menyertakan bidang/atribut pabean di header, dan JSON format yang menyertakan bidang khusus. Format defaultnya adalah dasarCSV.

Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.

Format dokumen	Diperlakukan sebagai	Bagaimana dokumen diperlakukan	Struktur asli
Format Dokumen Portabel (PDF)	HTML	Dikonversi keHTML, maka konten diekstraksi.	Tidak terstruktur
HyperText Bahasa Markup () HTML	HTML	HTMLtag disaring untuk mengekstrak konten. Konten harus antara tag `HTML` awal dan penutup utama (`<HTML>content</HTML>`).	Semi-terstruktur
Bahasa Markup yang Dapat Diperluas () XML	XML	XMLtag disaring untuk mengekstrak konten.	Semi-terstruktur
Transformasi Bahasa Stylesheet Extensible () XSLT	XSLT	Tag disaring untuk mengekstrak konten.	Semi-terstruktur
MarkDown (MD)	Teks biasa	Konten diekstraksi dengan MarkDown sintaks disertakan.	Semi-terstruktur
Nilai Terpisah Koma () CSV	CSV	Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal.	Terstruktur untuk FAQ file, jika tidak semi-terstruktur
Microsoft Excel (XLSdanXLSX)	XLSdan XLSX	Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal.	Semi-terstruktur
JavaScript Notasi Objek () JSON	Teks biasa	Konten diekstraksi dengan JSON sintaks disertakan.	Semi-terstruktur
Format Teks Kaya (RTF)	RTF	RTFsintaks disaring untuk mengekstrak konten.	Semi-terstruktur
Microsoft PowerPoint (PPT)	PPT, PPTX	Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi.	Tidak terstruktur
Microsoft Word	DOC, DOCX	Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi.	Tidak terstruktur
Teks biasa (TXT)	TXT	Semua teks dalam dokumen teks diekstraksi.	Tidak terstruktur

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Dokumen

Atribut atau bidang dokumen