本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
文件類型或格式
Amazon Kendra 支援常用的文件類型或格式 PDFHTML,例如 PowerPoint、、Word 等。索引可以包含多種文件格式。
Amazon Kendra 擷取文件內的內容,以便使文件可搜尋。文檔被解析的方式來優化對提取的文本和文檔中的任何表格內容(HTML表格)的搜索。這表示將文件結構化為用於搜尋的欄位或屬性。文件中繼資料 (例如上次修改日期) 可能是有用的搜尋欄位。
文件可以組織成列和欄。例如,每個文件都是一列,而每個文件欄位/屬性 (例如標題和內文內容) 都是一欄。例如,如果您使用資料庫做為資料來源,則應將資料結構化或組織成列和欄。
您可以透過下列方式將文件新增至索引:
如果您想要新增FAQ檔案,您可以使用CreateFaqAPI來新增儲存在 Amazon S3 桶。您可以選擇基本CSV格式、標題中包含海關欄位/屬性的CSV格式,以及包含自訂欄位的JSON格式。預設格式為基本格式CSV。
以下提供每種支援文件格式的資訊,以及如何進行 Amazon Kendra 索引文件時,會處理每種格式。
文件格式 | 被視為 | 如何處理文件 | 原始結構 |
---|---|---|---|
可攜式文件格式 (PDF) | HTML | 轉換為HTML,然後提取內容。 | 非结构化 |
HyperText 標記語言 (HTML) | HTML | HTML標籤被過濾掉以提取內容。內容必須在主要HTML 開始和結束標籤之間 (<HTML>content</HTML> )。 |
半结构 |
可延伸標記語言 (XML) | XML | XML標籤被過濾掉以提取內容。 | 半结构 |
可擴展樣式表語言轉換 (XSLT) | XSLT | 標籤被過濾掉以提取內容。 | 半结构 |
MarkDown (馬里蘭州) | 純文字 | 內容提取並包含 MarkDown 語法。 | 半结构 |
逗號分隔值 (CSV) | CSV | 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 | 為FAQ檔案結構化,否則為半結構化 |
Microsoft Excel(XLS和XLSX) | XLS和 XLSX | 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 | 半结构 |
JavaScript 對象符號(JSON) | 純文字 | 內容提取並包含JSON語法。 | 半结构 |
RTF 格式 (RTF) | RTF | RTF語法被過濾掉以提取內容。 | 半结构 |
Microsoft PowerPoint (PPT) | PPT, PPTX | 僅從 PowerPoint 幻燈片中提取文本內容進行搜索。不會擷取影像和其他內容。 | 非结构化 |
Microsoft Word | DOC, DOCX | 僅從 Word 頁面中提取文本內容進行搜索。不會擷取影像和其他內容。 | 非结构化 |
純文字 (TXT) | TXT | 會擷取文字文件中的所有文字。 | 非结构化 |