选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

针对 Amazon S3 目标设置 Amazon S3 事件通知的爬网程序

聚焦模式
针对 Amazon S3 目标设置 Amazon S3 事件通知的爬网程序 - AWS Glue

按照以下步骤使用 AWS Management Console或 AWS CLI 为 Amazon S3 目标设置 Amazon S3 事件通知的爬网程序。

AWS Management Console
  1. 登录 AWS Management Console,打开 GuardDuty 控制台:https://console.aws.amazon.com/guardduty/

  2. 设置爬网程序属性。有关更多信息,请参阅在 AWS Glue 控制台上设置爬网程序配置选项

  3. 数据来源配置部分中,系统将询问您的数据是否已映射到 AWS Glue 表?

    默认情况下已选择 Not yet(尚未)。请将其保留为默认值,这是因为您使用的是 Amazon S3 数据来源,而该数据尚未映射到 AWS Glue 表。

  4. Data sources(数据来源)部分中,选择 Add a data source(添加数据来源)。

    Data source configuration interface with options to select or add data sources for crawling.
  5. Add data source(添加数据来源)模态中,配置 Amazon S3 数据来源:

    • Data source(数据来源):默认选择 Amazon S3。

    • Network connection(网络连接)(可选):选择 Add new connection(添加新连接)。

    • Location of Amazon S3 data(Amazon S3 数据位置):默认选择 In this account(此账户中)。

    • Amazon S3 path(Amazon S3 路径):指定在其中爬取文件夹和文件的 Amazon S3 路径。

    • Subsequent crawler runs(后续爬网程序运行):选择 Crawl based on events(基于事件爬取)以对爬网程序使用 Amazon S3 事件通知。

    • Include SQS ARN(包含 SQS ARN):指定数据存储参数,包括有效的 SQS ARN。(例如,arn:aws:sqs:region:account:sqs)。

    • Include dead-letter SQS ARN(包含死信 SQS ARN)(可选):指定有效的 Amazon 死信 SQS ARN。(例如,arn:aws:sqs:region:account:deadLetterQueue)。

    • 选择 Add an Amazon S3 data source(添加 Amazon S3 数据来源)。

    Add data source dialog for S3, showing options for network connection and crawl settings.
AWS CLI

以下是 Amazon S3 AWS CLI 调用示例,用于配置爬网程序以使用事件通知来爬取 Amazon S3 目标存储桶。

Create Crawler: aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \ --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'
  1. 登录 AWS Management Console,打开 GuardDuty 控制台:https://console.aws.amazon.com/guardduty/

  2. 设置爬网程序属性。有关更多信息,请参阅在 AWS Glue 控制台上设置爬网程序配置选项

  3. 数据来源配置部分中,系统将询问您的数据是否已映射到 AWS Glue 表?

    默认情况下已选择 Not yet(尚未)。请将其保留为默认值,这是因为您使用的是 Amazon S3 数据来源,而该数据尚未映射到 AWS Glue 表。

  4. Data sources(数据来源)部分中,选择 Add a data source(添加数据来源)。

    Data source configuration interface with options to select or add data sources for crawling.
  5. Add data source(添加数据来源)模态中,配置 Amazon S3 数据来源:

    • Data source(数据来源):默认选择 Amazon S3。

    • Network connection(网络连接)(可选):选择 Add new connection(添加新连接)。

    • Location of Amazon S3 data(Amazon S3 数据位置):默认选择 In this account(此账户中)。

    • Amazon S3 path(Amazon S3 路径):指定在其中爬取文件夹和文件的 Amazon S3 路径。

    • Subsequent crawler runs(后续爬网程序运行):选择 Crawl based on events(基于事件爬取)以对爬网程序使用 Amazon S3 事件通知。

    • Include SQS ARN(包含 SQS ARN):指定数据存储参数,包括有效的 SQS ARN。(例如,arn:aws:sqs:region:account:sqs)。

    • Include dead-letter SQS ARN(包含死信 SQS ARN)(可选):指定有效的 Amazon 死信 SQS ARN。(例如,arn:aws:sqs:region:account:deadLetterQueue)。

    • 选择 Add an Amazon S3 data source(添加 Amazon S3 数据来源)。

    Add data source dialog for S3, showing options for network connection and crawl settings.
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。