本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
本節說明如何為其支援的許多文件格式和文件的不同欄位/屬性編製 Amazon Kendra 索引。
文件類型或格式
Amazon Kendra 支援常見的文件類型或格式,例如 PDF、HTML、Word、PowerPoint 等。索引可以包含多種文件格式。
Amazon Kendra 會擷取文件內的內容,以便搜尋文件。這些文件的剖析方式是最佳化對擷取的文字和文件中任何表格式內容 (HTML 資料表) 的搜尋。這表示將文件建構為用於搜尋的欄位或屬性。文件中繼資料,例如上次修改的日期,對於搜尋來說非常有用。
文件可以組織成資料列和資料欄。例如,每個文件都是一列,每個文件欄位/屬性,例如標題和內文內容,都是一欄。例如,如果您使用資料庫做為資料來源,資料應結構化或組織成資料列和資料欄。
您可以透過下列方式將文件新增至索引:
如果您想要新增常見問答集檔案,您可以使用 CreateFaq API 來新增存放在 Amazon S3 儲存貯體中的檔案。您可以選擇基本 CSV 格式、在標頭中包含自訂欄位/屬性的 CSV 格式,以及包含自訂欄位的 JSON 格式。預設格式為基本 CSV。
以下提供每個支援文件格式的資訊,以及在編製文件索引時 Amazon Kendra 如何處理每個格式。
文件格式 | 視為 | 文件的處理方式 | 原始結構 |
---|---|---|---|
可攜式文件格式 (PDF) | HTML | 轉換為 HTML,然後擷取內容。 | 非結構化 |
HyperText 標記語言 (HTML) | HTML | 篩選掉 HTML 標籤以擷取內容。內容必須在主要HTML 開始和結束標籤之間 (<HTML>content</HTML> )。 |
半結構化 |
可擴展標記語言 (XML) | XML | 篩選掉 XML 標籤以擷取內容。 | 半結構化 |
可擴展樣式表語言轉換 (XSLT) | XSLT | 標籤會篩選出以擷取內容。 | 半結構化 |
MarkDown (MD) | 純文字 | 內容是以包含的 MarkDown 語法擷取。 | 半結構化 |
逗號分隔符號值 (CSV) | CSV | 從每個儲存格擷取的內容,其中單一檔案會視為單一文件結果。 | 為 FAQ 檔案建構,否則為半結構化 |
Microsoft Excel (XLS 和 XLSX) | XLS 和 XLSX | 從每個儲存格擷取的內容,其中單一檔案會視為單一文件結果。 | 半結構化 |
JavaScript 物件標記法 (JSON) | 純文字 | 內容是以包含的 JSON 語法擷取。 | 半結構化 |
Rich Text 格式 (RTF) | RTF | RTF 語法會篩選出以擷取內容。 | 半結構化 |
Microsoft PowerPoint (PPT) | PPT、PPTX | 只會從 PowerPoint 投影片擷取文字內容以進行搜尋。影像和其他內容不會擷取。 | 非結構化 |
Microsoft Word | DOC、DOCX | 只會從 Word 頁面擷取文字內容以進行搜尋。影像和其他內容不會擷取。 | 非結構化 |
純文字 (TXT) | TXT | 文字文件中的所有文字都會擷取。 | 非結構化 |
文件屬性或欄位
文件具有與其相關聯的屬性或欄位。文件的欄位是文件的屬性,或文件結構中包含的內容。例如,您的每個文件可能包含標題、內文文字和作者。您也可以為特定文件新增自訂欄位。例如,如果您的索引搜尋稅務文件,您可以為 W-2、1099 等稅務文件類型指定自訂欄位。
在查詢中使用文件欄位之前,必須先將其對應至索引欄位。例如,標題欄位可以映射到欄位 _document_title
。如需詳細資訊,請參閱映射欄位。若要新增欄位,您必須建立索引欄位以映射欄位。您可以使用主控台或使用 UpdateIndex API 建立索引欄位。
您可以使用文件欄位來篩選回應,並建立面向搜尋結果。例如,您可以篩選回應,以僅傳回特定版本的文件,或者您可以篩選搜尋,以僅傳回符合搜尋詞彙的 1099 類型稅務文件。如需詳細資訊,請參閱篩選和面向搜尋。
您也可以使用文件欄位來手動調整查詢回應。例如,您可以選擇增加標題欄位的重要性,以在決定回應中傳回哪些文件時,增加 Amazon Kendra 指派給欄位的權重。如需詳細資訊,請參閱調整搜尋關聯性。
如果您要將文件直接新增至索引,請將文件輸入參數中的欄位指定至 BatchPutDocument API。您可以在 DocumentAttribute 物件陣列中指定自訂欄位值。如果您使用的是資料來源,您用來新增文件欄位的方法取決於資料來源。如需詳細資訊,請參閱映射資料來源欄位。
使用 Amazon Kendra 預留或常用文件欄位
使用 UpdateIndex API,您可以使用 建立預留或通用欄位,DocumentMetadataConfigurationUpdates
Amazon Kendra 並指定預留索引欄位名稱,以映射至同等文件屬性/欄位名稱。您也可以建立自訂欄位。如果您使用資料來源連接器,大多數包含將資料來源文件欄位映射到 Amazon Kendra 索引欄位的欄位映射。如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後繼續在欄位映射區段旁設定資料來源,以更新欄位。
您可以設定 Search
物件,將欄位設定為可顯示、可面向、可搜尋和可排序。您可以設定Relevance
物件來設定欄位的排名順序、提升持續時間或期間,以套用至映射到特定欄位值的提升、新鮮度、重要性值和重要性值。如果您使用 主控台,您可以在導覽功能表中選取面向選項,以設定欄位的搜尋設定。若要設定關聯性調校,請在導覽功能表中選取 選項來搜尋索引、輸入查詢,並使用側邊面板選項來調校搜尋關聯性。建立欄位後,就無法變更欄位類型。
Amazon Kendra 具有下列預留或常用文件欄位,您可以使用:
-
_authors
- 負責文件內容的一或多個作者清單。 -
_category
- 在特定群組中放置文件的類別。 -
_created_at
- 建立文件的 ISO 8601 格式日期和時間。例如,2012-03-25T12:30:10+01:00 是以 ISO 8601 日期時間格式表示的歐洲中部時間 2012 年 3 月 25 日中午 12:30 (加上 10 秒)。 -
_data_source_id
- 包含 文件之資料來源的識別符。 -
_document_body
- 文件的內容。 -
_document_id
- 文件的唯一識別符。 -
_document_title
- 文件的標題。 -
_excerpt_page_number
- PDF 檔案中文件摘錄出現的頁碼。如果您的索引是在 2020 年 9 月 8 日之前建立的,您必須先重新索引文件,才能使用此屬性。 -
_faq_id
—如果這是問答類型文件 (FAQ),則為常見問答集的唯一識別符。 -
_file_type
- 文件的檔案類型,例如 pdf 或 doc。 -
_last_updated_at
—文件上次更新的 ISO 8601 格式日期和時間。例如,2012-03-25T12:30:10+01:00 是以 ISO 8601 日期時間格式表示的歐洲中部時間 2012 年 3 月 25 日中午 12:30 (加上 10 秒)。 -
_source_uri
- 文件可用的 URI。例如,公司網站上的文件 URI。 -
_version
- 文件特定版本的識別符。 -
_view_count
- 文件已檢視的次數。 -
_language_code
(字串) — 適用於文件的語言程式碼。如果您未指定語言,則預設為英文。如需支援語言的詳細資訊,包括其代碼,請參閱新增英文以外語言的文件。
對於自訂欄位,您可以使用 DocumentMetadataConfigurationUpdates
搭配 UpdateIndex
API 來建立這些欄位,就像您在建立預留或通用欄位時一樣。您必須為自訂欄位設定適當的資料類型。如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後繼續在欄位映射區段旁設定資料來源,以更新欄位。有些資料來源不支援新增欄位或自訂欄位。建立欄位後,就無法變更欄位類型。
以下是您可以為自訂欄位設定的類型:
-
日期
-
Number
-
字串
-
字串清單
如果您使用 BatchPutDocument API 將文件新增至索引, 會Attributes
列出文件的欄位/屬性,並使用 DocumentAttribute
物件建立欄位。
對於從 Amazon S3 資料來源編製索引的文件,您可以使用包含欄位資訊的 JSON 中繼資料檔案建立欄位。
如果您使用支援的資料庫做為資料來源,您可以使用欄位映射選項來設定欄位。