使用 AWS Glue 爬网程序查询大型数据集

此示例项目演示了如何在 Amazon S3 中提取大型数据集并通过 AWS Glue 爬网程序对其进行分区，然后对该分区执行 Amazon Athena 查询。

在本项目中，Step Functions 状态机调用 AWS Glue 爬网程序，对 Amazon S3 中的大型数据集进行分区。一旦 AWS Glue 爬网程序返回成功信息，工作流就会针对该分区执行 Athena 查询。成功执行查询后，将向 Amazon SNS 主题发送到 Amazon SNS 通知。

第 1 步：创建状态机

打开 Step Functions 控制台，然后选择创建状态机。
选择从模板创建，然后找到相关的入门模板。选择下一步以继续。
选择模板使用方式：
1. 运行演示 — 创建只读状态机。审核后，您可以创建工作流和所有相关资源。
2. 构建依据 — 提供可编辑的工作流定义，您可借助自有资源对其进行审核、定制并部署。（不会自动创建函数或队列等相关资源。）
选择使用模板继续进行选择。

注意
部署到您的账户的服务将会收取标准费用。

第 2 步：运行演示状态机

如果您选择了运行演示选项，则所有相关资源都将部署并准备好运行。如果您选择了构建依据选项，则可能需要先设置占位符值并创建其他资源，然后才能运行自定义工作流。

选择部署并运行。
等待 CloudFormation 堆栈部署。这一过程耗时最多 10 分钟。
出现开始执行选项后，查看输入并选择开始执行。

恭喜您！

现在，您应该有了一个正在运行的状态机演示。您可以在图表视图中选择状态来查看输入、输出、变量、定义和事件。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用 Athena 按顺序并行执行查询

将数据保持为最新状态

使用 AWS Glue 爬网程序查询大型数据集

第 1 步：创建状态机

注意

第 2 步：运行演示状态机

恭喜您！