本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 元件
AWS Glue 提供主控台和API操作來設定和管理擷取、轉換和載入 (ETL) 工作負載。您可以API透過多種語言特定的SDKs和 AWS Command Line Interface ()AWS CLI來使用作業。若要取得有關使用的資訊 AWS CLI,請參閱〈AWS CLI 指令參考〉
AWS Glue 使用 AWS Glue Data Catalog 來儲存有關資料來源、轉換和目標的中繼資料。資料目錄可用於替換 Apache Hive 中繼存放區。 AWS Glue Jobs system 提供受管理的基礎結構,用於定義、排程和ETL執行資料上的作業。如需有關的更多資訊 AWS Glue API,請參閱AWS Glue API。
AWS Glue 控制台
您可以使用 AWS Glue 主控台來定義和協調ETL工作流程。主控台會呼叫 AWS Glue Data Catalog 和中的數個API作業, AWS Glue Jobs system 以執行下列工作:
-
AWS Glue 定義工作、表格、爬行者程式和連線等物件。
-
排程爬蟲程式執行的時間。
-
定義事件或排程以進行任務觸發。
-
搜索和過濾 AWS Glue 對象列表。
-
編輯轉換指令碼。
AWS Glue Data Catalog
AWS Glue Data Catalog 這是您在 AWS 雲端中的永久性技術中繼資料存放區。
每個 AWS 帳戶 AWS Glue Data Catalog 每個 AWS 區域都有一個。每個資料目錄都是組織成資料庫的高度可擴展資料表集合。資料表是儲存在 Amazon RDS、Apache Hadoop 分散式檔案系統、Amazon OpenSearch 服務等來源中的結構化或半結構化資料集合的中繼資料表示。 AWS Glue Data Catalog 提供統一的儲存庫,其中不同的系統可以儲存和尋找中繼資料,以追蹤資料孤島中的資料。然後,您可以使用中繼資料在各個應用程式中以一致的方式來查詢和轉換資料。
您可以將資料目錄與 AWS Identity and Access Management 原則和 Lake Formation 一起使用,以控制對資料表和資料庫的存取。這樣一來,您可讓企業中不同的群組將資料安全地發佈給更廣泛的組織,同時以更精細的方式保護敏感資訊。
資料型錄 CloudTrail 與 Lake Formation 也為您提供全面的稽核和控管功能,以及結構描述變更追蹤和資料存取控制。這有助於確保資料不會受到不適當的修改或意外遭到共享。
如需有關保護和稽核 AWS Glue Data Catalog的資訊,請參閱:
-
AWS Lake Formation – 如需詳細資訊,請參閱《 AWS Lake Formation開發人員指南》https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html中的什麼是AWS Lake Formation ?。
-
CloudTrail— 如需詳細資訊,請參閱什麼是 CloudTrail? 在《AWS CloudTrail 使用者指南》中。
以下是其他使用的 AWS 服務和開放原始碼專案 AWS Glue Data Catalog:
-
Amazon Athena - 如需詳細資訊,請參閱https://docs.aws.amazon.com/athena/latest/ug/understanding-tables-databases-and-the-data-catalog.html《Amazon Athena 使用者指南》中的了解資料表、資料庫和資料目錄。
-
Amazon Redshift Spectrum - 如需詳細資訊,請參閱《Amazon Redshift 資料庫開發人員指南》https://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html中的使用 Amazon Redshift Spectrum 以查詢外部資料。
-
Amazon EMR — 如需詳細資訊,請參閱 Amazon EMR管理指南中的使用以資源為基礎 AWS Glue Data Catalog的 Amazon EMR 存取政策。
-
AWS Glue Data Catalog Apache Hive 中繼存放區的用戶端 — 有關此 GitHub 專案的詳細資訊,請參閱 Apache Hive 中繼存放區的AWS Glue Data Catalog 用戶端
。
AWS Glue 爬蟲和分類器
AWS Glue 此外,您還可以設定檢索器,以掃描各種儲存庫中的資料、對其進行分類、從中擷取結構描述資訊,以及將中繼資料自動儲存在 AWS Glue Data Catalog. 然後 AWS Glue Data Catalog 可以用來指導ETL操作。
如需有關如何設定爬蟲程式和分類器的詳細資訊,請參閱 使用編目器填入資料目錄 。如需如何使用編目器和分類器程式的相關資訊 AWS Glue API,請參閱。爬蟲程式和分類器 API
AWS Glue ETL操作
使用數據目錄中的元數據, AWS Glue 可以自動生成 Scala 或 PySpark(Apache Spark API 的 Python)腳本,您可以使用和修改 AWS Glue 擴展來執行各種ETL操作。例如,您可以擷取、清理和轉換原始資料,然後將結果存放在不同的儲存庫,以供查詢和分析。這樣的指令碼可能會將CSV檔案轉換成關聯式表單,並將其儲存在 Amazon Redshift 中。
如需如何使用 AWS Glue ETL權能的詳細資訊,請參閱Spark 指令碼程式設計。
串流 ETL AWS Glue
AWS Glue 可讓您使用持續執行的工ETL作對串流資料執行作業。 AWS Glue 串流ETL是建立在 Apache Spark 結構化串流引擎之上,可以從 Amazon Kinesis Data Streams、Apache 卡夫卡以及適用於 Apache 卡夫卡 (Amazon) 的 Amazon 受管串流擷取串流。MSK串流ETL可以清理和轉換串流資料,並將其載入 Amazon S3 或JDBC資料存放區。使用「串ETL流」 AWS Glue 來處理 IoT 串流、點擊流和網路記錄等事件資料。
如果您知道串流資料來源的結構描述,您可以在資料目錄資料表中指定它。如果沒有,您可以在串流ETL工作中啟用結構描述偵測。然後,任務會自動從傳入資料判斷結構描述。
串流ETL工作可以同時使用 Apache Spark 結構化串流原生的 AWS Glue 內建轉換和轉換。如需詳細資訊,請參閱 Apache Spark 網站上的串流 DataFrames/資料集的作
如需詳細資訊,請參閱在 中串流ETL任務 AWS Glue。
工 AWS Glue 作系統
AWS Glue Jobs system 提供受管理的基礎結構以協調您的ETL工作流程。您可以在其中建立工作 AWS Glue ,將用於擷取、轉換資料和傳輸資料到不同位置的指令碼自動化。您可以排程和鏈結任務,或透過新資料到達等事件予以觸發。
若要取得有關使用的更多資訊 AWS Glue Jobs system,請參閱監控 AWS Glue。如需有關使用程式設計的資訊 AWS Glue Jobs system API,請參閱任務 API。
視覺ETL元件
AWS Glue 可讓您透過可操ETL作的視覺畫布建立工作。
![螢幕擷取畫面顯示資源面板已關閉。](images/glue-studio-canvas.png)
ETL工作功能表
畫布頂端的選單選項允許您存取有關任務的各種檢視和組態詳細資訊。
-
視覺化:視覺化任務編輯器畫布。您可以在此處新增節點以建立任務。
-
指令集 — 工ETL作的指令集表示。 AWS Glue 會根據工作的視覺呈現方式產生指令碼。您也可以編輯或下載指令碼。
注意
如果您選擇編輯指令碼,任務撰寫體驗會永久轉換為僅指令碼模式。之後,您將無法再使用視覺化編輯器來編輯任務。在選擇編輯指令碼之前,您應該新增所有任務來源、轉換和目標,並使用視覺化編輯器進行全部所需變更。
-
任務詳細資訊:「任務詳細資訊」索引標籤可讓您透過設定任務屬性來設定任務。有一些基本屬性,例如工作的名稱和描述、IAM角色、工作類型、 AWS Glue 版本、語言、Worker 類型、Worker 數量、工作書籤、彈性執行、淘汰數量和作業逾時,還有進階屬性,例如連線、程式庫、工作參數和標籤。
-
執行:任務執行後,可存取此索引標籤以檢視過去的任務執行情況。
-
資料品質:資料品質會評估和監控資料資產的品質。您可以在此索引標籤上進一步了解如何使用資料品質,並將資料品質轉換新增至您的任務。
-
排程:您已排程的任務會顯示在此索引標籤中。如果沒有連接到此任務的排程,則無法存取此索引標籤。
-
版本控制:您可以將任務設定至 Git 儲存庫,以便將 Git 與任務搭配使用。
視覺ETL面板
當您在畫布中工作時,有多個面板可協助您設定節點,或協助您預覽資料並檢視輸出結構描述。
-
屬性:當您在畫布上選擇節點時,會顯示「屬性」面板。
-
資料預覽:「資料預覽」面板提供資料輸出的預覽,讓您可以在執行任務和檢查輸出之前做出決定。
-
輸出結構描述:「輸出結構描述」索引標籤可讓您檢視和編輯轉換節點的結構描述。
調整面板大小
您可以調整畫面右側的「屬性」面板以及包含「資料預覽」和「輸出結構描述」索引標籤的底部面板的大小,方法是按一下面板邊緣,然後左右或上下拖曳它。
-
屬性面板:按一下並拖曳畫面右側的畫布邊緣,然後將其向左拖曳以擴大寬度,即可調整屬性面板的大小。依預設,面板會收合,而當選取節點時,屬性面板會以預設大小開啟。
-
資料預覽和輸出結構描述面板:按一下並拖曳畫面底部的畫布底部邊緣,然後將底部面板向上拖曳以擴大其高度,即可調整底部面板的大小。依預設,面板會收合,而當選取節點時,底部面板會以預設大小開啟。
任務畫布
您可以直接在 Visual 畫ETL布上新增、移除和移動/重新排序節點。將其視為您的ETL工作區,以建立以資料來源開始且可以以資料目標結束的功能完整工作。
當您使用畫布上的節點時,工具列可以協助您放大和縮小、移除節點、建立或編輯節點之間的連線、變更任務流程方向,以及復原或重做動作。
![螢幕擷取畫面顯示資源面板已關閉。](images/glue-studio-canvas-toolbar.png)
浮動工具列會錨定至畫布右上角的大小,並包含多個執行動作的影像:
-
版面圖示:工具列中的第一個圖示是版面圖示。依預設,視覺任務的方向是從上到下。它透過從左到右水平排列節點來重新排列視覺化任務的方向。再次按一下版面圖示可將方向變更回從上到下。
-
重新置中圖示:重新置中圖示會透過將畫布檢視置中來變更畫布檢視。您可以將其與大型任務一起使用,以返回到中心位置。
-
放大圖示:放大圖示可放大畫布上節點的大小。
-
縮小圖示:縮小圖示可縮小畫布上節點的大小。
-
垃圾桶圖示:垃圾桶圖示會從視覺化任務中移除節點。您必須先選取節點。
-
復原圖示:復原圖示可回復對視覺化任務執行的最後一個動作。
-
重做圖示:重做圖示可重複對視覺化任務執行的最後一個動作。
使用迷你地圖
![該螢幕擷取畫面顯示迷你地圖的特寫。](images/glue-studio-canvas-minimap.png)
資源面板
資源面板包含您可用的所有資料來源、轉換動作和連線。透過按一下 "+" 圖示開啟畫布上的資源面板。這將開啟資源面板。
若要關閉資源面板,按一下資源面板右上角的 X。這樣會隱藏面板,直到您準備好再次開啟面板為止。
![螢幕擷取畫面顯示已開啟的資源面板。](images/resource-panel-open.png)
熱門轉換與資料
面板頂部有一個熱門轉換與資料的集合。這些節點通常在 AWS Glue 中使用。選擇一個節點以將其新增至畫布。您也可以按一下熱門轉換與資料標題旁的三角形,隱藏熱門轉換與資料。
在熱門轉換與資料區段下方,您可以搜尋轉換和資料來源節點。結果會在您輸入時顯示。您新增至搜尋查詢的字母越多,結果清單就會越小。搜尋結果會根據節點名稱和/或描述填入。選擇對應節點以將其新增至畫布。
轉換與資料
有兩個索引標籤可將節點組織為轉換與資料。
轉換:當您選擇轉換索引標籤時,可以選取所有可用的轉換。選擇一個轉換以將其新增至畫布。您也可以選擇轉換清單底部的新增轉換,這樣會開啟文件的新頁面,以建立自訂視覺化轉換。按照這些步驟操作可建立自己的轉換。然後,您的轉換就會出現在可用轉換清單中。
資料:資料索引標籤包含來源和目標的所有節點。您可以按一下「來源」或「目標」標題旁的三角形,隱藏來源和目標。再次按一下三角形可取消隱藏來源和目標。選擇來源或目標節點以將其新增至畫布。您也可以選擇管理連線來新增連線。這將打開主控台中的「連接器」頁面。