什麼是 AWS Glue? - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Glue?

AWS Glue 是無伺服器資料整合服務,讓分析使用者可從多個來源輕鬆探索、準備、移動和整合資料。您可以將其用於分析、機器學習和應用程式開發。它還包括用於編寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。

透過 AWS Glue,您可以探索並連線到 70 多種不同的資料來源,並在集中式資料目錄中管理資料。您可以直觀地建立、執行和監控擷取、轉換和載入 (ETL) 管道,以將資料載入資料湖。此外,您還可以使用 Amazon Athena,Amazon EMR 和 Amazon Redshift Spectrum 立即搜尋和查詢已編目的資料。

AWS Glue 將主要資料整合功能整合到單一服務中。其中包括資料探索、現代 ETL、清理、轉換和集中編目。這也是無伺服器服務,即無需管理基礎結構。AWS Glue 在單一服務中靈活支援 ETL、ELT 和串流等所有工作負載,支援各種工作負載和使用者類型的使用者。

此外,AWS Glue 可讓您輕鬆整合架構中的資料。它與 AWS 分析服務和 Amazon S3 資料湖整合。 AWS Glue具有集成界面和工作創作工具,從開發人員到商業用戶,所有用戶都可以輕鬆使用,並為各種技術技能提供量身定制的解決方案。

AWS Glue 具有根據需求擴展的能力,能協助您專注於最大化資料價值的高價值活動。它可以根據任何資料大小進行擴展,並支持所有資料類型和結構描述變化。為了提高靈活性並最佳化成本,AWS Glue提供內建的高可用性和 pay-as-you-go 計費功能。

如需定價資訊,請參閱 AWS Glue 定價

AWS Glue Studio

AWS Glue Studio 是圖形介面,讓您能在 AWS Glue 中輕鬆建立、執行和監控資料整合任務。您可以用視覺化方式撰寫資料轉換工作流程,並在 AWS Glue 中的 Apache Spark 型無伺服器 ETL 引擎上順暢地執行它們。

有了 AWS Glue Studio,您可以建立和管理用於收集、轉換和清理資料的任務。您可以使用 AWS Glue Studio 來疑難排解和編輯任務指令碼。

AWS Glue 功能

AWS Glue 功能分為三個主要類別:

  • 探索和整理資料

  • 轉換、準備和清理資料以進行分析

  • 建立和監控資料管道

探索和整理資料

  • 統一和搜尋多個資料存放區 — 透過將所有資料編目在中,跨多個資料來源和接收器進行儲存、索引和搜尋。 AWS

  • 自動探索資料:使用 AWS Glue 爬蟲程式可自動推斷結構描述資訊,並將其整合至您的 AWS Glue Data Catalog。

  • 管理結構描述和權限:驗證和控制對資料庫和資料表的存取。

  • Connect 到各種資料來源 — 使用AWS Glue連線建立資料湖,利用內部部署和內部部署的多個資料來源。 AWS

轉換、準備和清理資料以進行分析

  • 使用作業畫布介面以視覺化方式轉換資料 — 在視覺化作業編輯器中定義 ETL 程序,並自動產生程式碼以擷取、轉換和載入資料。

  • 使用簡單的任務排程建立複雜的 ETL 管道:根據排程、需求或基於事件呼叫 AWS Glue 任務。

  • 清理和轉換傳輸中的資料:啟用持續的資料消耗,並在傳輸過程中加以清理和轉換。這使得它在幾秒鐘內可在目標資料存放區中進行分析。

  • 利用內建的機器學習來刪除重複資料並清除資料:使用 FindMatches 功能,無需成為機器學習專家即可清理和準備資料以進行分析。此功能會刪除重複資料,並尋找彼此不完美相符的記錄。

  • 內建任務筆記本:AWS Glue 任務筆記本提供無伺服器筆記本,在 AWS Glue 中只需最少的設定,您就可以快速開始使用。

  • 編輯、偵錯和測試 ETL 程式碼:您可以藉由 AWS Glue 互動式工作階段,以互動方式探索和準備資料。您可以使用自己選擇的 IDE 或筆記本,以互動方式探索、實驗和處理資料。

  • 定義、偵測及修復敏感資料:AWS Glue敏感資料偵測可讓您定義、辨識和處理資料管道和資料湖中的敏感資料。

建立和監控資料管道

  • 根據工作負載自動擴展:根據工作負載動態擴展和縮減資源。這只會在需要時才將工作者指派給任務。

  • 使用事件型觸發器將任務自動化:啟動爬蟲程式或具有事件型觸發器的 AWS Glue 任務,並設計相依任務和爬蟲程式鏈結。

  • 執行和監控任務:使用您選擇的引擎 Spark 或 Ray 來執行 AWS Glue 任務。使用自動化監控工具、AWS Glue 任務執行洞見和 AWS CloudTrail來監控任務。使用 Apache Spark UI 改善您對 Spark 支援任務的監控。

  • 定義 ETL 和整合活動的工作流程:為多個爬蟲程式、任務和觸發器定義 ETL 和整合活動的工作流程。

學習創新 AWS Glue

瞭解中的最新創新, AWS Glue 並瞭解客戶如何在其組織中使用 AWS Glue 自助式資料準備工作。

瞭解客戶如何擴充 AWS Glue 超越傳統設定,以及他們如何針 AWS Glue 對工作監控和效能進行配置。

AWS Glue 入門

我們建議您從下列各節開始著手:

存取 AWS Glue

您可以使用下列任一介面來建立、檢視和管理 AWS Glue:

  • AWS Glue主控台:提供 Web 介面,讓您可建立、檢視和管理 AWS Glue 任務。若要存取主控台,請參閱 AWS Glue

  • AWS Glue Studio:提供圖形介面,供您直觀地建立和編輯 AWS Glue 任務。如需詳細資訊,請參閱 什麼是 AWS Glue Studio

  • AWS Glue AWS CLI 參考區段 — 提供您可以搭配使用的 AWS CLI 指令AWS Glue。如需詳細資訊,請參閱 AWS CLI 參考適用於 AWS Glue

  • AWS GlueAPI:為開發人員提供完整的 API 參考。如需詳細資訊,請參閱 AWS Glue API

AWS Glue 使用者也可以使用:

  • AWS Lake Formation :一種服務,是對 AWS Glue Data Catalog 中的資源提供精細存取控制的授權層。

  • AWS Glue DataBrew— 視覺化資料準備工具,您可以使用它來清理和規範化資料,而無需編寫任何程式碼。