Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jenis atau format dokumen
Amazon Kendra mendukung jenis atau format dokumen populer sepertiPDF,HTML, Word PowerPoint, dan banyak lagi. Indeks dapat berisi beberapa format dokumen.
Amazon Kendra mengekstrak konten di dalam dokumen untuk membuat dokumen dapat dicari. Dokumen diuraikan dengan cara mengoptimalkan pencarian pada teks yang diekstraksi dan konten HTML tabel (tabel) apa pun di dalam dokumen. Ini berarti menyusun dokumen ke dalam bidang atau atribut yang digunakan untuk pencarian. Metadata dokumen, seperti tanggal modifikasi terakhir, dapat menjadi bidang yang berguna untuk pencarian.
Dokumen dapat diatur ke dalam baris dan kolom. Misalnya, setiap dokumen adalah baris dan setiap bidang/atribut dokumen, seperti judul dan isi isi, adalah kolom. Misalnya, jika Anda menggunakan database sebagai sumber data Anda, data harus terstruktur atau diatur ke dalam baris dan kolom.
Anda dapat menambahkan dokumen ke indeks Anda melalui cara-cara berikut:
Jika Anda ingin menambahkan FAQ file, Anda menggunakan CreateFaqAPIuntuk menambahkan file yang disimpan dalam file Amazon S3 bucket. Anda dapat memilih antara CSV format dasar, CSV format yang menyertakan bidang/atribut pabean di header, dan JSON format yang menyertakan bidang khusus. Format defaultnya adalah dasarCSV.
Berikut ini memberikan informasi tentang setiap format dokumen yang didukung dan bagaimana Amazon Kendra memperlakukan setiap format saat mengindeks dokumen.
Format dokumen | Diperlakukan sebagai | Bagaimana dokumen diperlakukan | Struktur asli |
---|---|---|---|
Format Dokumen Portabel (PDF) | HTML | Dikonversi keHTML, maka konten diekstraksi. | Tidak terstruktur |
HyperText Bahasa Markup () HTML | HTML | HTMLtag disaring untuk mengekstrak konten. Konten harus antara tag HTML awal dan penutup utama (<HTML>content</HTML> ). |
Semi-terstruktur |
Bahasa Markup yang Dapat Diperluas () XML | XML | XMLtag disaring untuk mengekstrak konten. | Semi-terstruktur |
Transformasi Bahasa Stylesheet Extensible () XSLT | XSLT | Tag disaring untuk mengekstrak konten. | Semi-terstruktur |
MarkDown (MD) | Teks biasa | Konten diekstraksi dengan MarkDown sintaks disertakan. | Semi-terstruktur |
Nilai Terpisah Koma () CSV | CSV | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Terstruktur untuk FAQ file, jika tidak semi-terstruktur |
Microsoft Excel (XLSdanXLSX) | XLSdan XLSX | Konten diekstraksi dari setiap sel, dengan satu file diperlakukan sebagai hasil dokumen tunggal. | Semi-terstruktur |
JavaScript Notasi Objek () JSON | Teks biasa | Konten diekstraksi dengan JSON sintaks disertakan. | Semi-terstruktur |
Format Teks Kaya (RTF) | RTF | RTFsintaks disaring untuk mengekstrak konten. | Semi-terstruktur |
Microsoft PowerPoint (PPT) | PPT, PPTX | Hanya konten teks yang diekstraksi dari PowerPoint slide untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Microsoft Word | DOC, DOCX | Hanya konten teks yang diekstraksi dari halaman Word untuk pencarian. Gambar dan konten lainnya tidak diekstraksi. | Tidak terstruktur |
Teks biasa (TXT) | TXT | Semua teks dalam dokumen teks diekstraksi. | Tidak terstruktur |