上的無伺服器 ETL 入門 AWS Glue - AWS 規範指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

上的無伺服器 ETL 入門 AWS Glue

Dheer Toprani 和 Adnan Alvee,Amazon Web Services (AWS)

2024 年 3 月 (文件歷史記錄)

在 Amazon Web Services (AWS) 雲端上, AWS Glue 是全受管無伺服器環境,您可以在其中大規模擷取、轉換和載入 (ETL) 資料。使用 AWS Glue,您可以分類資料、清理資料、擴充資料,並以經濟實惠的方式可靠地跨各種資料存放區和串流移動資料。

AWS Glue 是無伺服器,因此您不需要擔心佈建或管理伺服器。使用 AWS Glue時,您只需支付使用的資源,而且您可以視需要向上或向下擴展。

AWS Glue 包含下列元件:

  • AWS Glue ETL – AWS Glue ETL 提供批次和串流選項,以擷取、轉換資料,以及將資料從一個來源載入到另一個來源。

  • AWS Glue Data Catalog – Data Catalog 是中央儲存庫,用於組織所有資料資產的中繼資料。Data Catalog 提供統一的界面,您可以在其中跨資料分析服務搜尋、探索和共用資料資產。

  • AWS Glue DataBrew – DataBrew 是一種無程式碼資料準備工具,可用來以視覺化方式探索、清理和轉換資料。您可以從超過 250 個預先建置的轉換中進行選擇,以自動化資料準備任務,而無需撰寫任何程式碼。

本指南提供高階介紹 AWS Glue,包括其運作方式,以及開始使用的方式。它涵蓋撰寫 AWS Glue 任務之前您需要了解的重要概念,例如自動化、監控和與其他 AWS 服務整合。後續步驟區段可讓您在 中編寫程式碼,以加快速度 AWS Glue。如果您已經有使用 的經驗 AWS Glue,最佳實務區段將協助您填補知識中的任何差距。本指南結束時,您將具備開始有效使用 AWS Glue 所需的知識和資源。