選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

爬蟲程式和註冊的 Amazon S3 位置位於不同帳戶 (跨帳戶網路爬取) 時需要進行設定

焦點模式
爬蟲程式和註冊的 Amazon S3 位置位於不同帳戶 (跨帳戶網路爬取) 時需要進行設定 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要允許爬蟲程式使用 Lake Formation 憑證存取其他帳戶中的資料存放區,您必須先向 Lake Formation 註冊 Amazon S3 資料位置。接著,您可以透過執行下列步驟,將資料位置許可授與爬蟲程式的帳戶。

您可以使用 AWS Management Console 或來完成下列步驟 AWS CLI。

AWS Management Console
  1. 在註冊 Amazon S3 位置的帳戶中 (帳戶 B):

    1. 向 Lake Formation 註冊 Amazon S3 路徑。如需詳細資訊,請參閱 Registering Amazon S3 location (註冊 Amazon S3 位置)。

    2. Data location (資料位置) 許可授與爬蟲程式執行所在的帳戶 (帳戶 A)。如需詳細資訊,請參閱 Grant data location permissions (授與資料位置許可)。

    3. 在 Lake Formation 中建立空的資料庫,並將基礎位置作為目標 Amazon S3 位置。如需詳細資訊,請參閱建立資料庫

    4. 授與帳戶 A (爬蟲程式執行所在的帳戶) 您在上一個步驟中建立的資料庫存取權。如需詳細資訊,請參閱授與資料庫許可

  2. 在爬蟲程式建立並將執行所在的帳戶中 (帳戶 A):

    1. 使用 AWS RAM 主控台,接受從外部帳戶 (帳戶 B) 共用的資料庫。如需詳細資訊,請參閱接受來源共用邀請 AWS Resource Access Manager

    2. 建立爬蟲程式的 IAM 角色。將 lakeformation:GetDataAccess 政策新增至該角色。

    3. 在 Lake Formation 主控台 (https://console.aws.amazon.com/lakeformation/) 中,將目標 Amazon S3 位置的 Data location (資料位置) 許可授與用於爬蟲程式執行的 IAM 角色,以便爬蟲程式可以從 Lake Formation 中的目的地讀取資料。如需詳細資訊,請參閱 Granting data location permissions (授與資料位置許可)。

    4. 在共用資料庫上建立資源連結。如需詳細資訊,請參閱建立資源連結

    5. 授與爬蟲程式角色共用資料庫和 (Describe) 資源連結的存取許可 (Create)。資源連結在爬蟲程式的輸出中指定。

    6. 在 AWS Glue 主控台 (https://console.aws.amazon.com/glue/) 中,設定爬行者程式時,選取「使用 Lake Formation 登入資料來爬取 Amazon S3 資料來源」選項。

      對於跨帳戶探索,請指定目標 Amazon S3 位置向 Lake Formation 註冊的 AWS 帳戶 ID。對於帳戶內網路爬取,accountId 欄位是選填的。

      IAM role selection and Lake Formation configuration options for AWS Glue 編目程式 security settings.
AWS CLI
aws glue --profile demo create-crawler --debug --cli-input-json '{ "Name": "prod-test-crawler", "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role", "DatabaseName": "prod-run-db", "Description": "", "Targets": { "S3Targets":[ { "Path": "s3://crawl-testbucket" } ] }, "SchemaChangePolicy": { "UpdateBehavior": "LOG", "DeleteBehavior": "LOG" }, "RecrawlPolicy": { "RecrawlBehavior": "CRAWL_EVERYTHING" }, "LineageConfiguration": { "CrawlerLineageSettings": "DISABLE" }, "LakeFormationConfiguration": { "UseLakeFormationCredentials": true, "AccountId": "111111111111" }, "Configuration": { "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }, "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } }, "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" } }, "CrawlerSecurityConfiguration": "", "Tags": { "KeyName": "" } }'
  1. 在註冊 Amazon S3 位置的帳戶中 (帳戶 B):

    1. 向 Lake Formation 註冊 Amazon S3 路徑。如需詳細資訊,請參閱 Registering Amazon S3 location (註冊 Amazon S3 位置)。

    2. Data location (資料位置) 許可授與爬蟲程式執行所在的帳戶 (帳戶 A)。如需詳細資訊,請參閱 Grant data location permissions (授與資料位置許可)。

    3. 在 Lake Formation 中建立空的資料庫,並將基礎位置作為目標 Amazon S3 位置。如需詳細資訊,請參閱建立資料庫

    4. 授與帳戶 A (爬蟲程式執行所在的帳戶) 您在上一個步驟中建立的資料庫存取權。如需詳細資訊,請參閱授與資料庫許可

  2. 在爬蟲程式建立並將執行所在的帳戶中 (帳戶 A):

    1. 使用 AWS RAM 主控台,接受從外部帳戶 (帳戶 B) 共用的資料庫。如需詳細資訊,請參閱接受來源共用邀請 AWS Resource Access Manager

    2. 建立爬蟲程式的 IAM 角色。將 lakeformation:GetDataAccess 政策新增至該角色。

    3. 在 Lake Formation 主控台 (https://console.aws.amazon.com/lakeformation/) 中,將目標 Amazon S3 位置的 Data location (資料位置) 許可授與用於爬蟲程式執行的 IAM 角色,以便爬蟲程式可以從 Lake Formation 中的目的地讀取資料。如需詳細資訊,請參閱 Granting data location permissions (授與資料位置許可)。

    4. 在共用資料庫上建立資源連結。如需詳細資訊,請參閱建立資源連結

    5. 授與爬蟲程式角色共用資料庫和 (Describe) 資源連結的存取許可 (Create)。資源連結在爬蟲程式的輸出中指定。

    6. 在 AWS Glue 主控台 (https://console.aws.amazon.com/glue/) 中,設定爬行者程式時,選取「使用 Lake Formation 登入資料來爬取 Amazon S3 資料來源」選項。

      對於跨帳戶探索,請指定目標 Amazon S3 位置向 Lake Formation 註冊的 AWS 帳戶 ID。對於帳戶內網路爬取,accountId 欄位是選填的。

      IAM role selection and Lake Formation configuration options for AWS Glue 編目程式 security settings.
注意
  • 只有 Amazon S3 和資料型錄目標才支援使用 Lake Formation 憑證的爬蟲程式。

  • 對於使用 Lake Formation 憑證販售的目標,基礎 Amazon S3 位置必須屬於同一個儲存貯體。例如,只要所有目標位置都位於同一個儲存貯體 (bucket1) 下,客戶就可以使用多個目標 (s3://bucket1/folder1、s3://bucket1/folder2)。不允許指定不同的儲存貯體 (s3://bucket1/folder1、s3://bucket2/folder2)。

  • 目前對於資料型錄目標爬蟲程式而言,僅允許具有單一型錄資料表的單一型錄目標。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。