什麼是 AWS Glue? - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Glue?

AWS Glue 是一種無伺服器資料整合服務,可讓分析使用者輕鬆探索、準備、移動和整合來自多個來源的資料。您可以將其用於分析、機器學習和應用程式開發。它還包括用於編寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。

使用 AWS Glue,您可以在集中式資料目錄中探索並連線至超過 70 個不同的資料來源,並管理資料。您可以視覺化地建立、執行和監控擷取、轉換和載入 (ETL) 管道,將資料載入資料湖。此外,您也可以立即使用 Amazon Athena 、Amazon 和 Amazon Redshift Spectrum 搜尋EMR和查詢已編製目錄的資料。

AWS Glue 將主要資料整合功能整合為單一服務。其中包括資料探索、現代 ETL、清除、轉換和集中編製目錄。這也是無伺服器服務,即無需管理基礎結構。透過在一個服務中靈活支援所有工作負載ETL,例如 ELT、 和 串流,AWS Glue 支援各種工作負載和使用者類型的使用者。

此外,AWS Glue 可讓您輕鬆地跨架構整合資料。它與 AWS 分析服務和 Amazon S3 資料湖整合。AWS Glue 具有整合介面和任務撰寫工具,從開發人員到商業使用者,都易於使用,並提供針對各種技術技能集量身打造的解決方案。

透過隨需擴展,AWS Glue 可協助您專注於高價值的活動,將資料的價值最大化。它可以根據任何資料大小進行擴展,並支持所有資料類型和結構描述變化。若要提高靈活性並最佳化成本,AWS Glue 提供內建高可用性和 pay-as-you-go 計費。

如需定價資訊,請參閱 AWS Glue 定價

AWS Glue Studio

AWS Glue Studio 是一種圖形界面,可讓您輕鬆地在 中建立、執行和監控資料整合任務 AWS Glue。 您可以在 中以視覺化方式編寫資料轉換工作流程,並在 Apache Spark 型無伺服器ETL引擎上順暢執行這些工作流程 AWS Glue.

使用 AWS Glue Studio,您可以建立和管理收集、轉換和清除資料的任務。您也可以使用 AWS Glue Studio 來疑難排解和編輯任務指令碼。

AWS Glue 功能

AWS Glue 功能分為三個主要類別:

  • 探索和整理資料

  • 轉換、準備和清理資料以進行分析

  • 建立和監控資料管道

探索和整理資料

  • 在多個資料存放區中統一和搜尋 – 透過在 中編製所有資料目錄,在多個資料來源和儲存貯體中儲存、編製索引和搜尋 AWS。

  • 自動探索資料 – 使用 AWS Glue 爬蟲程式可自動推斷結構描述資訊並將其整合至您的 AWS Glue Data Catalog。

  • 管理結構描述和權限:驗證和控制對資料庫和資料表的存取。

  • 連接至各種資料來源 – AWS使用 ,在內部部署和 上輕觸多個資料來源 AWS Glue 連線來建置您的資料湖。

轉換、準備和清理資料以進行分析

  • 使用任務畫布界面以視覺化方式轉換資料 – 在視覺化任務編輯器中定義您的ETL程序,並自動產生程式碼以擷取、轉換和載入資料。

  • 使用簡單的任務排程建置複雜的ETL管道 – 調用 AWS Glue 排程、隨需或事件上的任務。

  • 清理和轉換傳輸中的資料:啟用持續的資料消耗,並在傳輸過程中加以清理和轉換。這使得它在幾秒鐘內可在目標資料存放區中進行分析。

  • 利用內建的機器學習來刪除重複資料並清除資料:使用 FindMatches 功能,無需成為機器學習專家即可清理和準備資料以進行分析。此功能會刪除重複資料,並尋找彼此不完美相符的記錄。

  • 內建任務筆記本 – AWS Glue 任務筆記本提供在 中設定最少的無伺服器筆記本 AWS Glue 以便您可以快速開始。

  • 編輯、偵錯和測試ETL程式碼 – 使用 AWS Glue 互動式工作階段,您可以互動式探索和準備資料。您可以使用您選擇的 IDE或筆記本,以互動方式探索、實驗和處理資料。

  • 定義、偵測和修復敏感資料 – AWS Glue 敏感資料偵測可讓您定義、識別和處理資料管道和資料湖中的敏感資料。

建立和監控資料管道

  • 根據工作負載自動擴展:根據工作負載動態擴展和縮減資源。這只會在需要時才將工作者指派給任務。

  • 使用事件型觸發程序將任務自動化 – 啟動爬蟲程式或 AWS Glue 具有事件型觸發條件的任務,並設計相依任務和爬蟲程式的鏈。

  • 執行和監控任務 – 執行 AWS Glue 任務,可選擇引擎、Spark 或 Ray。使用自動化監控工具進行監控,AWS Glue 任務執行洞察和 AWS CloudTrail。使用 Apache Spark UI 改善您對 Spark 支援任務的監控。

  • 定義 ETL和 整合活動的工作流程 – 定義多個爬蟲程式、任務ETL和觸發程序的工作流程和整合活動。

了解 中的創新 AWS Glue

了解 中的最新創新, AWS Glue 並了解客戶如何使用 AWS Glue 在其組織中啟用自助式資料準備。

了解客戶如何 AWS Glue 超越傳統設定,以及如何 AWS Glue 設定任務監控和效能。

入門 AWS Glue

我們建議您從下列各節開始著手:

存取 AWS Glue

您可以建立、檢視和管理 AWS Glue 使用以下界面的任務:

  • AWS Glue 主控台 – 提供 Web 介面,供您建立、檢視和管理 AWS Glue 任務。若要存取主控台,請參閱 AWS Glue.

  • AWS Glue Studio – 提供圖形界面,供您建立和編輯 AWS Glue 視覺化任務。如需詳細資訊,請參閱使用 建置視覺化 ETL 任務 AWS Glue Studio

  • AWS Glue 參考 - AWS CLI 提供您可以搭配 使用的 AWS CLI 命令 AWS Glue。 如需詳細資訊,請參閱 的AWS CLI 參考 AWS Glue.

  • AWS Glue API – 為開發人員提供完整的API參考。如需詳細資訊,請參閱 AWS Glue API.

的使用者 AWS Glue 也使用:

  • AWS Lake Formation – 是一種授權層服務,可對 中的資源提供精細存取控制 AWS Glue Data Catalog.

  • AWS Glue DataBrew – 視覺化資料準備工具,可讓您在不撰寫任何程式碼的情況下清除和標準化資料。