選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

Amazon S3

焦點模式
Amazon S3 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon S3 是一種物件儲存服務,可將資料儲存為儲存貯體中的物件。您可以使用 Amazon Kendra 為文件的 Amazon S3 儲存貯體儲存庫編製索引。

警告

Amazon Kendra 不會使用將許可授予 Amazon Kendra 委託人與 S3 儲存貯體互動的儲存貯體政策。而是使用 IAM 角色。請確定 Amazon Kendra 未包含在儲存貯體政策中做為信任的成員,以避免意外授予許可給任意主體時發生任何資料安全問題。不過,您可以新增儲存貯體政策,以在不同的帳戶中使用儲存 Amazon S3 貯體。如需詳細資訊,請參閱Amazon S3 跨帳戶使用的政策 (在 S3 IAM 角色索引標籤內,IAM 資料來源的角色下)。如需 S3 資料來源 IAM 角色的相關資訊,請參閱IAM 角色

注意

Amazon Kendra 現在支援升級的 Amazon S3 連接器。

主控台已為您自動升級。您在主控台中建立的任何新連接器都會使用升級的架構。如果您使用 API,您現在必須使用 TemplateConfiguration 物件,而不是 S3DataSourceConfiguration 物件來設定連接器。

使用較舊主控台和 API 架構設定的連接器將繼續按設定運作。不過,您將無法編輯或更新它們。如果您想要編輯或更新連接器組態,則必須建立新的連接器。

建議您將連接器工作流程遷移至升級版本。對使用較舊架構設定的連接器的支援預計在 2024 年 6 月結束。

您可以使用 Amazon Kendra 主控台TemplateConfiguration API 連線到 Amazon S3 資料來源。

注意

若要產生 Amazon S3 資料來源的同步狀態報告,請參閱疑難排解資料來源

如需對 Amazon Kendra S3 資料來源連接器進行故障診斷,請參閱 對資料來源進行故障診斷

支援的功能

  • 欄位映射

  • 使用者存取控制

  • 包含/排除篩選條件

  • 完整和增量內容同步

  • 虛擬私有雲端 (VPC)

先決條件

在您可以使用 Amazon Kendra 為 S3 資料來源編製索引之前,請在 S3 和 AWS 帳戶中進行這些變更。

在 S3 中,請確定您有:

  • 已複製儲存 Amazon S3 貯體的名稱。

    注意

    您的儲存貯體必須與 Amazon Kendra 索引位於相同的區域,且您的索引必須具有存取包含您文件之儲存貯體的許可。

  • 已檢查每個文件在 S3 中是唯一的,以及您計劃用於相同索引的其他資料來源。您想要用於索引的每個資料來源,在資料來源中不得包含相同的文件。文件 IDs是索引的全域 ID,且每個索引必須是唯一的。

在您的帳戶中 AWS ,請確定您已:

如果您沒有現有 IAM 角色,則可以使用 主控台,在將 S3 資料來源連線到 時建立新的 IAM 角色 Amazon Kendra。如果您使用的是 API,則必須提供現有 IAM 角色的 ARN 和索引 ID。

連線指示

若要 Amazon Kendra 連線至 S3 資料來源,您必須提供 S3 資料來源的必要詳細資訊,以便 Amazon Kendra 可以存取您的資料。如果您尚未為 設定 S3 Amazon Kendra,請參閱 先決條件

Console

Amazon Kendra 連線至 Amazon S3

  1. 登入 AWS Management Console 並開啟 Amazon Kendra 主控台

  2. 從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。

    注意

    您可以選擇在索引設定下設定或編輯使用者存取控制設定。

  3. 入門頁面上,選擇新增資料來源

  4. 新增資料來源頁面上,選擇 S3 連接器,然後選擇新增連接器。如果使用第 2 版 (如適用),請選擇具有「V2.0」標籤的 S3 連接器

  5. 指定資料來源詳細資訊頁面上,輸入下列資訊:

    1. 名稱和描述中,針對資料來源名稱 - 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選用) 描述 — 輸入資料來源的選用描述。

    3. 預設語言中—選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的 AWS 成本。

    5. 選擇 Next (下一步)

  6. 定義存取和安全性頁面上,輸入下列選用資訊:

    1. IAM role—選擇現有 IAM 角色或建立新的 IAM 角色,以存取您的儲存庫登入資料和索引內容。

      注意

      IAM 用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。

    2. Virtual Private Cloud (VPC):您可以選擇使用 VPC。如果是這樣,您必須新增子網路VPC 安全群組

    3. 選擇 Next (下一步)

  7. 設定同步設定頁面上,輸入下列資訊:

    1. 對於資料來源位置 - 指定儲存資料之儲存 Amazon S3 貯體的路徑。選取瀏覽 S3 以選擇您的 S3 儲存貯體。

    2. 針對檔案大小上限 - 指定限制,以 MB 為單位,僅限於此限制以下的爬取檔案。 Amazon Kendra 允許的檔案大小上限為 50 MB。

    3. 對於 (選用) 中繼資料檔案字首資料夾位置 — 指定儲存欄位/屬性和其他文件中繼資料的資料夾路徑。選取瀏覽 S3 以尋找中繼資料資料夾。

    4. 對於 (選用) 存取控制清單組態檔案位置—指定檔案的路徑,其中包含使用者的 JSON 結構及其對文件的存取。選取瀏覽 S3 以尋找您的 ACL 檔案。

    5. (選用) 選取解密金鑰 - 選取以使用解密金鑰。您可以選擇使用現有的 AWS KMS 金鑰。

    6. 對於 (選用) 其他組態 — 新增模式以包含或排除特定檔案。所有路徑都相對於資料來源位置 S3 儲存貯體。

    7. 同步模式 - 選擇您希望在資料來源內容變更時更新索引的方式。當您 Amazon Kendra 第一次使用 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。

      • 完全同步:將所有內容重新編製索引,每次資料來源與索引同步時取代現有的內容。

      • 新增、修改、刪除的同步:每次資料來源與您的索引同步時,僅將新的、修改過和刪除的內容編製索引。 Amazon Kendra 可以使用資料來源的機制來追蹤自上次同步以來變更的內容和索引內容。

    8. 同步執行排程中,針對頻率 - 選擇同步資料來源內容和更新索引的頻率。

    9. 選擇 Next (下一步)

  8. 設定欄位映射頁面上,輸入下列選用資訊:

    1. 預設欄位映射 - 從您要映射到索引 Amazon Kendra 的預設資料來源欄位中選取。

    2. 新增欄位 - 選擇新增自訂資料來源欄位,以建立要映射的索引欄位名稱和欄位資料類型。

    3. 選擇 Next (下一步)

  9. 檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。

API

Amazon Kendra 連線至 Amazon S3

您必須使用 TemplateConfiguration API 指定資料來源結構描述的 JSON。您必須提供下列資訊:

  • 資料來源 - 指定資料來源類型做為您使用 TemplateConfiguration JSON 結構描述S3時。另請在呼叫 CreateDataSource API TEMPLATE時指定資料來源。

  • BucketName - 包含文件的儲存貯體名稱。

  • 同步模式 - 指定當資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次使用 Amazon Kendra 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。您可以選擇:

    • FORCED_FULL_CRAWL 以重新編製所有內容的索引,每次資料來源與索引同步時,將取代現有的內容。

    • FULL_CRAWL 每次資料來源與索引同步時, 只會編製新內容、修改內容和已刪除內容的索引。 Amazon Kendra 可以使用資料來源的機制來追蹤自上次同步以來變更的內容變更和索引內容。

  • IAM role—指定RoleArn您何時呼叫 CreateDataSource 以提供 IAM 角色存取 Secrets Manager 秘密的許可,以及呼叫 S3 連接器和 所需的公有 APIs Amazon Kendra。如需詳細資訊,請參閱 IAM S3 資料來源的角色

您也可以新增下列選用功能:

  • Virtual Private Cloud (VPC) — 指定您呼叫 VpcConfiguration的時間CreateDataSource。如需詳細資訊,請參閱設定 Amazon Kendra 以使用 Amazon VPC

  • 包含和排除篩選條件 - 指定是否包含或排除特定檔案名稱、檔案類型、檔案路徑。您使用 glob 模式 (可將萬用字元模式展開為符合指定模式的路徑名稱清單的模式)。如需範例,請參閱 CLI 命令參考中的使用排除和包含篩選條件。 AWS

  • 文件中繼資料和存取控制組態 - 新增文件中繼資料和存取控制檔案,其中包含來源 URI、文件作者或自訂文件屬性/欄位等資訊,以及使用者可以存取的文件。每個中繼資料檔案都包含單一文件的相關中繼資料。

  • 欄位映射 - 選擇將 S3 資料來源欄位映射到您的 Amazon Kendra 索引欄位。如需詳細資訊,請參閱映射資料來源欄位

    注意

    文件內文欄位或文件內文對等項目為必要欄位, Amazon Kendra 才能搜尋您的文件。您必須將資料來源中的文件內文欄位名稱對應至索引欄位名稱 _document_body。所有其他欄位是選用的。

如需其他要設定的重要 JSON 金鑰清單,請參閱S3範本結構描述

Amazon Kendra 連線至 Amazon S3

  1. 登入 AWS Management Console 並開啟 Amazon Kendra 主控台

  2. 從左側導覽窗格中,選擇索引,然後從索引清單中選擇您要使用的索引。

    注意

    您可以選擇在索引設定下設定或編輯使用者存取控制設定。

  3. 入門頁面上,選擇新增資料來源

  4. 新增資料來源頁面上,選擇 S3 連接器,然後選擇新增連接器。如果使用第 2 版 (如適用),請選擇具有「V2.0」標籤的 S3 連接器

  5. 指定資料來源詳細資訊頁面上,輸入下列資訊:

    1. 名稱和描述中,針對資料來源名稱 - 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選用) 描述 — 輸入資料來源的選用描述。

    3. 預設語言中—選擇語言來篩選索引的文件。除非您另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 標籤中,針對新增標籤 - 包含選用標籤,以搜尋和篩選您的資源或追蹤您的 AWS 成本。

    5. 選擇 Next (下一步)

  6. 定義存取和安全性頁面上,輸入下列選用資訊:

    1. IAM role—選擇現有 IAM 角色或建立新的 IAM 角色,以存取您的儲存庫登入資料和索引內容。

      注意

      IAM 用於索引的 角色無法用於資料來源。如果您不確定現有角色是否用於索引或常見問答集,請選擇建立新角色以避免錯誤。

    2. Virtual Private Cloud (VPC):您可以選擇使用 VPC。如果是這樣,您必須新增子網路VPC 安全群組

    3. 選擇 Next (下一步)

  7. 設定同步設定頁面上,輸入下列資訊:

    1. 對於資料來源位置 - 指定儲存資料之儲存 Amazon S3 貯體的路徑。選取瀏覽 S3 以選擇您的 S3 儲存貯體。

    2. 針對檔案大小上限 - 指定限制,以 MB 為單位,僅限於此限制以下的爬取檔案。 Amazon Kendra 允許的檔案大小上限為 50 MB。

    3. 對於 (選用) 中繼資料檔案字首資料夾位置 — 指定儲存欄位/屬性和其他文件中繼資料的資料夾路徑。選取瀏覽 S3 以尋找中繼資料資料夾。

    4. 對於 (選用) 存取控制清單組態檔案位置—指定檔案的路徑,其中包含使用者的 JSON 結構及其對文件的存取。選取瀏覽 S3 以尋找您的 ACL 檔案。

    5. (選用) 選取解密金鑰 - 選取以使用解密金鑰。您可以選擇使用現有的 AWS KMS 金鑰。

    6. 對於 (選用) 其他組態 — 新增模式以包含或排除特定檔案。所有路徑都相對於資料來源位置 S3 儲存貯體。

    7. 同步模式 - 選擇您希望在資料來源內容變更時更新索引的方式。當您 Amazon Kendra 第一次使用 同步資料來源時,預設會爬取所有內容並編製索引。如果初始同步失敗,即使您未選擇完全同步做為同步模式選項,仍必須執行資料的完整同步。

      • 完全同步:將所有內容重新編製索引,每次資料來源與索引同步時取代現有的內容。

      • 新增、修改、刪除的同步:每次資料來源與您的索引同步時,僅將新的、修改過和刪除的內容編製索引。 Amazon Kendra 可以使用資料來源的機制來追蹤自上次同步以來變更的內容和索引內容。

    8. 同步執行排程中,針對頻率 - 選擇同步資料來源內容和更新索引的頻率。

    9. 選擇 Next (下一步)

  8. 設定欄位映射頁面上,輸入下列選用資訊:

    1. 預設欄位映射 - 從您要映射到索引 Amazon Kendra 的預設資料來源欄位中選取。

    2. 新增欄位 - 選擇新增自訂資料來源欄位,以建立要映射的索引欄位名稱和欄位資料類型。

    3. 選擇 Next (下一步)

  9. 檢閱和建立頁面上,檢查您輸入的資訊是否正確,然後選取新增資料來源。您也可以選擇從此頁面編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在資料來源頁面上。

進一步了解

若要進一步了解 Amazon Kendra 如何與您的 S3 資料來源整合,請參閱:

在本頁面

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。