文件類型或格式 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

文件類型或格式

Amazon Kendra 支援常用的文件類型或格式 PDFHTML,例如 PowerPoint、、Word 等。索引可以包含多種文件格式。

Amazon Kendra 擷取文件內的內容,以便使文件可搜尋。文檔被解析的方式來優化對提取的文本和文檔中的任何表格內容(HTML表格)的搜索。這表示將文件結構化為用於搜尋的欄位或屬性。文件中繼資料 (例如上次修改日期) 可能是有用的搜尋欄位。

文件可以組織成列和欄。例如,每個文件都是一列,而每個文件欄位/屬性 (例如標題和內文內容) 都是一欄。例如,如果您使用資料庫做為資料來源,則應將資料結構化或組織成列和欄。

您可以透過下列方式將文件新增至索引:

如果您想要新增FAQ檔案,您可以使用CreateFaqAPI來新增儲存在 Amazon S3 桶。您可以選擇基本CSV格式、標題中包含海關欄位/屬性的CSV格式,以及包含自訂欄位的JSON格式。預設格式為基本格式CSV。

以下提供每種支援文件格式的資訊,以及如何進行 Amazon Kendra 索引文件時,會處理每種格式。

文件格式 被視為 如何處理文件 原始結構
可攜式文件格式 (PDF) HTML 轉換為HTML,然後提取內容。 非结构化
HyperText 標記語言 (HTML) HTML HTML標籤被過濾掉以提取內容。內容必須在主要HTML開始和結束標籤之間 (<HTML>content</HTML>)。 半结构
可延伸標記語言 (XML) XML XML標籤被過濾掉以提取內容。 半结构
可擴展樣式表語言轉換 (XSLT) XSLT 標籤被過濾掉以提取內容。 半结构
MarkDown (馬里蘭州) 純文字 內容提取並包含 MarkDown 語法。 半结构
逗號分隔值 (CSV) CSV 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 為FAQ檔案結構化,否則為半結構化
Microsoft Excel(XLS和XLSX) XLS和 XLSX 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 半结构
JavaScript 對象符號(JSON) 純文字 內容提取並包含JSON語法。 半结构
RTF 格式 (RTF) RTF RTF語法被過濾掉以提取內容。 半结构
Microsoft PowerPoint (PPT) PPT, PPTX 僅從 PowerPoint 幻燈片中提取文本內容進行搜索。不會擷取影像和其他內容。 非结构化
Microsoft Word DOC, DOCX 僅從 Word 頁面中提取文本內容進行搜索。不會擷取影像和其他內容。 非结构化
純文字 (TXT) TXT 會擷取文字文件中的所有文字。 非结构化