開始使用無伺服器 ETL AWS Glue - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始使用無伺服器 ETL AWS Glue

德爾·托普拉尼和阿德南阿爾維, Amazon Web Services ()AWS

2024 年三月 (文件歷史記錄)

在 Amazon Web Services (AWS) 雲端上,AWS Glue是一個全受管的無伺服器環境,您可以在其中大規模擷取、轉換和載入 (ETL) 資料。您可以使用 AWS Glue符合成本效益的方式,將資料分類、清理資料、豐富資料,以及在各種資料存放區和串流之間可靠地移動資料。

AWS Glue 是無伺服器,因此您不必擔心佈建或管理伺服器。使用時 AWS Glue,您只需為使用的資源付費,並且可以根據需要擴展或縮減規模。

AWS Glue 由下列元件組成:

  • AWS Glue ETL — AWS Glue ETL 提供批處理和流選項,用於從一個源提取,轉換和加載數據到另一個源。

  • AWS Glue Data Catalog— 資料目錄是用於組織所有資料資產中繼資料的中央儲存庫。資料型錄提供統一的介面,您可以在其中跨資料分析服務搜尋、探索和共用資料資產。

  • AWS Glue DataBrew— DataBrew 是一個無代碼的數據準備工具,您可以用它來直觀地探索,清理和轉換數據。您可以從 250 種以上的預建轉換中進行選擇,以自動執行資料準備工作,而無需撰寫任何程式碼。

本指南提供了有關其工作方式以及如何開始使用它的高級介紹。 AWS Glue它涵蓋了您在編寫 AWS Glue 工作之前需要了解的關鍵概念,例如自動化、監視以及與其他 AWS 服務整合。「下一步」部分將幫助您快速編寫代碼 AWS Glue。如果您已經有一些使用經驗 AWS Glue,則「最佳實踐」部分將幫助您填補知識中的任何空白。在本指南的結尾,您將擁有開始 AWS Glue 有效使用所需的知識和資源。