Documents - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

 Documents

本節說明如何為其支援的許多文件格式和文件的不同欄位/屬性編製 Amazon Kendra 索引。

文件類型或格式

Amazon Kendra 支援常見的文件類型或格式,例如 PDF、 PowerPoint、Word HTML等。索引可以包含多種文件格式。

Amazon Kendra 會擷取文件內的內容,以便搜尋文件。這些文件的剖析方式是最佳化對擷取的文字和文件中任何表格式內容 (HTML 資料表) 的搜尋。這表示將文件建構為用於搜尋的欄位或屬性。文件中繼資料,例如上次修改的日期,對於搜尋來說是有用的欄位。

文件可以組織成資料列和資料欄。例如,每個文件都是一列,每個文件欄位/屬性,例如標題和內文內容,都是一欄。例如,如果您使用資料庫做為資料來源,資料應該結構化或組織成資料列和資料欄。

您可以透過下列方式將文件新增至索引:

如果您想要新增FAQ檔案,您可以使用 CreateFaq API 新增存放在 Amazon S3 儲存貯體中的檔案。您可以選擇基本CSV格式、在標頭中包含自訂欄位/屬性的CSV格式,以及包含自訂欄位的JSON格式。預設格式為基本 CSV。

以下提供每個支援文件格式的資訊,以及在編製文件索引時 Amazon Kendra 如何處理每個格式。

文件格式 視為 文件的處理方式 原始結構
可攜式文件格式 (PDF) HTML 轉換為 HTML,然後擷取內容。 非結構化
HyperText 標記語言 (HTML) HTML HTML 標籤會篩選出以擷取內容。內容必須在主要HTML開始和結束標籤之間 (<HTML>content</HTML>)。 半結構化
可擴展標記語言 (XML) XML XML 標籤會篩選出以擷取內容。 半結構化
可擴展樣式表語言轉換 (XSLT) XSLT 標籤會篩選出以擷取內容。 半結構化
MarkDown (MD) 純文字 內容是以包含 MarkDown 的語法擷取。 半結構化
逗號分隔值 (CSV) CSV 從每個儲存格擷取的內容,其中單一檔案會視為單一文件結果。 為FAQ檔案結構化,否則為半結構化
Microsoft Excel (XLS 和 XLSX) XLS 和 XLSX 從每個儲存格擷取的內容,其中單一檔案會視為單一文件結果。 半結構化
JavaScript 物件表示法 (JSON) 純文字 內容是以包含JSON的語法擷取。 半結構化
Rich Text 格式 (RTF) RTF RTF 語法會篩選出以擷取內容。 半結構化
Microsoft PowerPoint (PPT) PPT, PPTX 只會從 PowerPoint 投影片擷取文字內容以進行搜尋。不會擷取影像和其他內容。 非結構化
Microsoft Word DOC, DOCX 只會從 Word 頁面擷取文字內容以進行搜尋。不會擷取影像和其他內容。 非結構化
純文字 (TXT) TXT 文字文件中的所有文字都會擷取。 非結構化

文件屬性或欄位

文件具有與其相關聯的屬性或欄位。文件的欄位是文件的屬性,或文件結構中包含的內容。例如,您的每個文件可能包含標題、內文文字和作者。您也可以為特定文件新增自訂欄位。例如,如果您的索引搜尋稅務文件,您可以為 W-2、1099 等稅務文件類型指定自訂欄位。

在查詢中使用文件欄位之前,必須先將其映射到索引欄位。例如,標題欄位可以映射到欄位 _document_title。如需詳細資訊,請參閱映射欄位。若要新增欄位,您必須建立索引欄位以映射欄位。您可以使用 主控台或使用 UpdateIndex 建立索引欄位API。

您可以使用文件欄位來篩選回應並建立面向搜尋結果。例如,您可以篩選回應,只傳回特定版本的文件,或篩選搜尋,只傳回符合搜尋詞彙的 1099 類型稅務文件。如需詳細資訊,請參閱篩選和面向搜尋

您也可以使用文件欄位來手動調整查詢回應。例如,您可以選擇增加標題欄位的重要性,以在決定回應中傳回哪些文件時,增加 Amazon Kendra 指派給欄位的權重。如需詳細資訊,請參閱調整搜尋關聯性。

如果您要將文件直接新增至索引,請將文件輸入參數中的欄位指定至 BatchPutDocument API。您可以在DocumentAttribute物件陣列中指定自訂欄位值。如果您使用的是資料來源,您用來新增文件欄位的方法取決於資料來源。如需詳細資訊,請參閱映射資料來源欄位

使用 Amazon Kendra 預留或通用文件欄位

使用 UpdateIndex API,您可以使用 建立預留或通用欄位,DocumentMetadataConfigurationUpdates Amazon Kendra 並指定預留索引欄位名稱,以映射至同等文件屬性/欄位名稱。您也可以建立自訂欄位。如果您使用資料來源連接器,大多數包含將資料來源文件欄位映射到 Amazon Kendra 索引欄位的欄位映射。如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後在欄位映射區段旁繼續設定資料來源,以更新欄位。

您可以設定 Search 物件,將欄位設定為可顯示、可面向、可搜尋和可排序。您可以設定Relevance物件來設定欄位的排名順序、提升持續時間或期間,以套用至對應至特定欄位值的提升、新鮮度、重要性值和重要性值。如果您使用 主控台,您可以在導覽功能表中選取面向選項,以設定欄位的搜尋設定。若要設定關聯性調校,請在導覽功能表中選取選項以搜尋索引、輸入查詢,並使用側邊面板選項來調校搜尋關聯性。建立欄位後,就無法變更欄位類型。

Amazon Kendra 具有下列預留或常用文件欄位,您可以使用:

  • _authors- 負責文件內容的一或多個作者清單。

  • _category- 在特定群組中放置文件的類別。

  • _created_at- 文件建立的 ISO8601 格式日期和時間。例如,2012-03-25T12:30 (加上 10 秒),2012 年 3 月 25 日中歐時間的 ISO8601 日期時間格式為 2012 年 3 月 30 日 12:30。

  • _data_source_id- 包含文件之資料來源的識別符。

  • _document_body- 文件的內容。

  • _document_id- 文件的唯一識別符。

  • _document_title- 文件的標題。

  • _excerpt_page_number- 文件摘錄出現的PDF檔案中的頁碼。如果您的索引是在 2020 年 9 月 8 日之前建立的,您必須先重新索引文件,才能使用此屬性。

  • _faq_id—如果這是問答類型文件 (FAQ),則為 的唯一識別符FAQ。

  • _file_type— 文件的檔案類型,例如 pdf 或 doc。

  • _last_updated_at- 文件上次更新的 ISO8601 格式日期和時間。例如,2012-03-25T12:30 (加上 10 秒),2012 年 3 月 25 日中歐時間的 ISO8601 日期時間格式為 2012 年 3 月 30 日 12:30。

  • _source_uri- 文件可用的 URI 。例如,公司網站上的 文件URI的 。

  • _version- 文件特定版本的識別符。

  • _view_count- 文件已檢視的次數。

  • _language_code (字串) — 適用於文件的語言程式碼。如果您未指定語言,則預設為英文。如需支援語言的詳細資訊,包括其程式碼,請參閱新增英文以外語言的文件

對於自訂欄位,您可以使用 DocumentMetadataConfigurationUpdates搭配 UpdateIndex 來建立這些欄位API,就像您在建立預留或通用欄位時一樣。您必須為自訂欄位設定適當的資料類型。如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後在欄位映射區段旁繼續設定資料來源,以更新欄位。有些資料來源不支援新增欄位或自訂欄位。建立欄位後,就無法變更欄位類型。

以下是您可以為自訂欄位設定的類型:

  • 日期

  • Number

  • 字串

  • 字串清單

如果您使用 BatchPutDocument 將文件新增至索引API, 會Attributes列出文件的欄位/屬性,並使用 DocumentAttribute 物件建立欄位。

對於從 Amazon S3 資料來源編製索引的文件,您可以使用包含欄位資訊的JSON中繼資料檔案建立欄位。

如果您使用支援的資料庫做為資料來源,您可以使用欄位映射選項來設定欄位