开启无服务器 ETL 入门 AWS Glue - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开启无服务器 ETL 入门 AWS Glue

Dheer Toprani 和 Adnan Alvee,Amazon Web Services (AWS)

2024 年 3 月文档历史记录

在 Amazon Web Services (AWS) Cloud 上,AWS Glue 是一个完全托管式无服务器环境,您可以在其中大规模提取、转换、加载(ETL)数据。借 AWS Glue助,您可以对数据进行分类、清理、丰富数据,并以经济实惠的方式在各种数据存储和流中可靠地移动数据。

AWS Glue 是无服务器的,因此您不必担心服务器的配置或管理。使用 AWS Glue,您只需为使用的资源付费,并且可以根据需要向上或向下扩展。

AWS Glue 由以下组件组成:

  • AWS Glue ETL — AWS Glue ETL 提供批处理和流式传输选项,用于提取、转换和加载数据从一个源到另一个来源。

  • AWS Glue Data Catalog:数据目录是一个中央存储库,用于组织所有数据资产的元数据。Data Catalog 提供了一个统一的界面,您可以在其中搜索、发现和共享数据分析服务中的数据资产。

  • AWS Glue DataBrew— DataBrew 是一款无需代码的数据准备工具,可用于直观地浏览、清理和转换数据。您可以从 250 多种预先构建的转换中进行选择,无需编写任何代码即可自动执行数据准备任务。

本指南提供了一个高级的介绍 AWS Glue,包括它的工作原理以及如何开始使用它。它涵盖了在创作 AWS Glue 作业之前需要了解的关键概念,例如自动化、监控以及与其他 AWS 服务的集成。后续步骤部分将帮助您在 AWS Glue快速编写代码。如果您已经有一些使用经验 AWS Glue,“最佳实践” 部分将帮助您填补知识中的任何空白。在本指南结束时,您将掌握开始有效使用 AWS Glue 所需的知识和资源。