選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

連接到知識庫的 Amazon S3

焦點模式
連接到知識庫的 Amazon S3 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon S3 是將資料當做物件存放在儲存貯體中的物件儲存服務。您可以使用 Amazon S3 Bedrock AWS 的管理主控台或 CreateDataSource API (請參閱 Amazon Bedrock 支援的 SDKs和 AWS CLI) 來連線至 Amazon Bedrock 知識庫的 Amazon S3 儲存貯體。 CreateDataSource

您可以使用 Amazon S3 主控台或 API,將一小批檔案上傳至 Amazon S3 儲存貯體。您也可以使用 AWS DataSync 持續將多個檔案上傳至 S3,並依排程從內部部署、邊緣、其他雲端或 AWS 儲存體傳輸檔案。

目前僅支援一般用途 S3 儲存貯體。

每個檔案可以爬取的檔案和 MB 有限制。如需知識庫,請參閱配額

支援的功能

  • 文件中繼資料欄位

  • 包含內容篩選條件

  • 新增、更新、刪除內容的增量內容同步

先決條件

在 Amazon S3 中,請確定您

  • 請注意 Amazon S3 儲存貯體 URI、Amazon Resource Name (ARN), AWS 以及儲存貯體擁有者的帳戶 ID。您可以在 Amazon S3 主控台的屬性區段中找到 URI 和 ARN。您的儲存貯體必須與 Amazon Bedrock 知識庫位於相同的區域。您必須具有存取儲存貯體的許可。

在您的帳戶中 AWS ,請確定您

  • 在知識庫的 AWS Identity and Access Management (IAM) 角色/許可政策中包含連接到資料來源的必要許可。如需此資料來源新增至知識庫 IAM 角色的必要許可資訊,請參閱存取資料來源的許可

注意

如果您使用 主控台,則可以在建立知識庫的步驟中為您建立具有所有必要許可 IAM 的角色。在您設定資料來源和其他組態之後, IAM 具有所有必要許可的角色會套用至您的特定知識庫。

連線組態

若要連線至 Amazon S3 儲存貯體,您必須提供必要的組態資訊,Amazon Bedrock 才能存取和編目您的資料。您也必須遵循 先決條件

本節包含此資料來源的組態範例。

如需包含篩選條件、文件中繼資料欄位、增量同步以及這些運作方式的詳細資訊,請選取下列項目:

您可以包含個別檔案,指定 Amazon S3 資料來源中每個檔案的文件中繼資料欄位/屬性,以及在將資料來源編製索引至向量存放區時是否將其包含在內嵌中。例如,您可以建立下列格式的檔案,命名為 example.metadata.json,並將其上傳至 S3 儲存貯體。

{ "metadataAttributes": { "company": { "value": { "type": "STRING", "stringValue": "BioPharm Innovations" }, "includeForEmbedding": true }, "created_date": { "value": { "type": "NUMBER", "numberValue": 20221205 }, "includeForEmbedding": true }, "author": { "value": { "type": "STRING", "stringValue": "Lisa Thompson" }, "includeForEmbedding": true }, "origin": { "value": { "type": "STRING", "stringValue": "Overview" }, "includeForEmbedding": true } } }

中繼資料檔案必須使用與其相關聯來源文件檔案相同的名稱,並將 .metadata.json附加到檔案名稱的結尾。中繼資料檔案必須與 Amazon S3 儲存貯體中的來源檔案存放在相同的資料夾或位置。檔案不得超過 10 KB 的限制。如需有關支援的屬性/欄位資料類型,以及您可以套用至中繼資料欄位的篩選運算子的資訊,請參閱中繼資料和篩選

您可以包含個別檔案,指定 Amazon S3 資料來源中每個檔案的文件中繼資料欄位/屬性,以及在將資料來源編製索引至向量存放區時是否將其包含在內嵌中。例如,您可以建立下列格式的檔案,命名為 example.metadata.json,並將其上傳至 S3 儲存貯體。

{ "metadataAttributes": { "company": { "value": { "type": "STRING", "stringValue": "BioPharm Innovations" }, "includeForEmbedding": true }, "created_date": { "value": { "type": "NUMBER", "numberValue": 20221205 }, "includeForEmbedding": true }, "author": { "value": { "type": "STRING", "stringValue": "Lisa Thompson" }, "includeForEmbedding": true }, "origin": { "value": { "type": "STRING", "stringValue": "Overview" }, "includeForEmbedding": true } } }

中繼資料檔案必須使用與其相關聯來源文件檔案相同的名稱,並將 .metadata.json附加到檔案名稱的結尾。中繼資料檔案必須與 Amazon S3 儲存貯體中的來源檔案存放在相同的資料夾或位置。檔案不得超過 10 KB 的限制。如需有關支援的屬性/欄位資料類型,以及您可以套用至中繼資料欄位的篩選運算子的資訊,請參閱中繼資料和篩選

您可以指定包含字首,這是 Amazon S3 路徑字首,您可以在其中使用 S3 檔案或資料夾,而不是整個儲存貯體來建立 S3 資料來源連接器。例如,您的字首可以是 ".*\\.pdf"。

您可以指定包含字首,這是 Amazon S3 路徑字首,您可以在其中使用 S3 檔案或資料夾,而不是整個儲存貯體來建立 S3 資料來源連接器。例如,您的字首可以是 ".*\\.pdf"。

每次資料來源與知識庫同步時,資料來源連接器都會編目新的、修改和刪除的內容。 Amazon Bedrock 可以使用資料來源的機制來追蹤自上次同步以來變更的內容和編目內容。當您第一次將資料來源與知識庫同步時,預設會爬取所有內容。

若要將資料來源與知識庫同步,請使用 StartIngestionJob API,或在主控台中選取知識庫,然後在資料來源概觀區段中選取同步

重要

您從資料來源同步的所有資料可供具有擷取資料bedrock:Retrieve許可的任何人使用。這也可以包含具有受控資料來源許可的任何資料。如需詳細資訊,請參閱知識庫許可

每次資料來源與知識庫同步時,資料來源連接器都會編目新的、修改和刪除的內容。 Amazon Bedrock 可以使用資料來源的機制來追蹤自上次同步以來變更的內容和編目內容。當您第一次將資料來源與知識庫同步時,預設會爬取所有內容。

若要將資料來源與知識庫同步,請使用 StartIngestionJob API,或在主控台中選取知識庫,然後在資料來源概觀區段中選取同步

重要

您從資料來源同步的所有資料可供具有擷取資料bedrock:Retrieve許可的任何人使用。這也可以包含具有受控資料來源許可的任何資料。如需詳細資訊,請參閱知識庫許可

Console
將 Amazon S3 儲存貯體連線至您的知識庫
  1. 遵循 中的步驟透過連線至 Amazon Bedrock 知識庫中的資料來源來建立知識庫,然後選擇 Amazon S3 作為資料來源。

  2. 提供資料來源的名稱。

  3. 指定 Amazon S3 儲存貯體位於您目前的 AWS 帳戶或其他 AWS 帳戶中。您的儲存貯體必須與知識庫位於相同的區域。

  4. (選用) 如果 Amazon S3 儲存貯體使用 KMS 金鑰加密,請包含 金鑰。如需詳細資訊,請參閱在 Amazon S3 中解密資料來源 AWS KMS 金鑰的許可

  5. (選用) 在內容剖析和區塊化區段中,您可以自訂如何剖析和區塊化資料。請參閱下列資源,進一步了解這些自訂項目:

  6. 進階設定區段中,您可以選擇設定下列項目:

    • 用於暫時性資料儲存的 KMS 金鑰。– 您可以使用預設 AWS 受管金鑰 或您自己的 KMS 金鑰,在將資料轉換為內嵌時加密暫時性資料。如需詳細資訊,請參閱資料擷取期間的暫時性資料儲存加密

    • 資料刪除政策 – 您可以刪除預設存放在向量存放區中資料來源的向量內嵌,或選擇保留向量存放區資料。

  7. 繼續選擇內嵌模型和向量存放區。若要查看剩餘的步驟,請返回 ,透過連線至 Amazon Bedrock 知識庫中的資料來源來建立知識庫並在連接資料來源後繼續該步驟。

API

以下是 Amazon Bedrock 知識庫連線至 Amazon S3 的組態範例。您可以使用 API 搭配 AWS CLI 或支援的 SDK 來設定資料來源,例如 Python。呼叫 CreateKnowledgeBase 之後,您可以呼叫 CreateDataSource,在 中使用連線資訊建立資料來源dataSourceConfiguration

若要了解您可以透過包含選用vectorIngestionConfiguration欄位套用至擷取的自訂,請參閱 自訂資料來源的擷取

AWS Command Line Interface

aws bedrock-agent create-data-source \ --name "S3-connector" \ --description "S3 data source connector for Amazon Bedrock to use content in S3" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://s3-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}' s3-bedrock-connector-configuration.json { "s3Configuration": { "bucketArn": "arn:aws:s3:::bucket-name", "bucketOwnerAccountId": "000000000000", "inclusionPrefixes": [ ".*\\.pdf" ] }, "type": "S3" }
將 Amazon S3 儲存貯體連線至您的知識庫
  1. 遵循 中的步驟透過連線至 Amazon Bedrock 知識庫中的資料來源來建立知識庫,然後選擇 Amazon S3 作為資料來源。

  2. 提供資料來源的名稱。

  3. 指定 Amazon S3 儲存貯體位於您目前的 AWS 帳戶或其他 AWS 帳戶中。您的儲存貯體必須與知識庫位於相同的區域。

  4. (選用) 如果 Amazon S3 儲存貯體使用 KMS 金鑰加密,請包含 金鑰。如需詳細資訊,請參閱在 Amazon S3 中解密資料來源 AWS KMS 金鑰的許可

  5. (選用) 在內容剖析和區塊化區段中,您可以自訂如何剖析和區塊化資料。請參閱下列資源,進一步了解這些自訂項目:

  6. 進階設定區段中,您可以選擇設定下列項目:

    • 用於暫時性資料儲存的 KMS 金鑰。– 您可以使用預設 AWS 受管金鑰 或您自己的 KMS 金鑰,在將資料轉換為內嵌時加密暫時性資料。如需詳細資訊,請參閱資料擷取期間的暫時性資料儲存加密

    • 資料刪除政策 – 您可以刪除預設存放在向量存放區中資料來源的向量內嵌,或選擇保留向量存放區資料。

  7. 繼續選擇內嵌模型和向量存放區。若要查看剩餘的步驟,請返回 ,透過連線至 Amazon Bedrock 知識庫中的資料來源來建立知識庫並在連接資料來源後繼續該步驟。

下一個主題:

Confluence

上一個主題:

連接資料來源

在本頁面

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。