本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 使用其他 AWS 服務來協調您的 ETL(擷取、轉換和載入) 任務,以建置資料倉儲和資料湖並產生輸出串流。AWS Glue 呼叫API操作來轉換資料、建立執行期日誌、儲存您的任務邏輯,以及建立通知,以協助您監控任務執行。所以此 AWS Glue 主控台會將這些服務連接到受管應用程式,因此您可以專注於建立和監控您的ETL工作。主控台會代表您執行管理與任務開發的操作。您可以將憑證和其他屬性提供給 AWS Glue 存取資料來源並寫入資料目標。
AWS Glue 負責佈建和管理執行工作負載所需的資源。您不需要為ETL工具建立基礎設施,因為 AWS Glue 會為您執行。需要資源時,為了縮短啟動時間,AWS Glue 會使用執行個體的暖集區中的執行個體來執行工作負載。
使用 AWS Glue,您可以使用 Data Catalog 中的資料表定義來建立任務。任務包含指令碼,其中包含執行所需資料轉換任務的指示。您可使用觸發,以排程或指定事件的結果啟動任務。您可決定目標資料存放的位置,以及將何種來源資料填入目標。根據您的輸入,AWS Glue 會將您的資料從來源轉換為目標格式。或者,您也可以在 中提供自訂指令碼 AWS Glue 主控台或 API ,以根據您的特定需求處理您的資料。
資料來源和目的地
AWS Glue for Spark 可讓您從多個系統和資料庫讀取和寫入資料,包括:
-
Amazon S3
-
Amazon DynamoDB
-
Amazon Redshift
-
Amazon Relational Database Service (Amazon RDS)
-
第三方JDBC可存取的資料庫
-
MongoDB 和 Amazon DocumentDB (with MongoDB compatibility)
-
其他 Marketplace 連接器和 Apache Spark 外掛程式
資料串流
AWS Glue for Spark 可以從下列系統串流資料:
-
Amazon Kinesis Data Streams
-
Apache Kafka
AWS Glue 可在數個 AWS 區域中使用。如需詳細資訊,請參閱 AWS 中的 Amazon Web Services 一般參考區域與端點。
主題
無伺服器ETL任務單獨執行
AWS Glue 在無伺服器環境中執行您的ETL任務,並選擇引擎、Spark 或 Ray。AWS Glue 在虛擬資源上執行這些任務,其會在自己的服務帳戶中佈建和管理這些資源。
AWS Glue 旨在執行下列動作:
區域客戶資料。
保護客戶傳輸中和靜態的資料。
僅在回應客戶請求、使用暫時、範圍減少憑證,或取得客戶同意後,才能存取IAM客戶資料。
在佈建ETL任務期間,您可以在虛擬私有雲端 () 中提供輸入資料來源和輸出資料目標VPC。此外,您可以提供存取資料來源和目標所需的IAM角色、VPCID、子網路 ID 和安全群組。對於每個組群 (客戶帳戶 ID、IAM角色、子網路 ID 和安全群組),AWS Glue 會建立新的環境,在網路和管理層級與 內部的所有其他環境隔離 AWS Glue 服務帳戶。
您可以在 AWS 帳戶中建立和設定 AWS Glue 資源,例如 Data Catalogs、Jobs 和 Crawlers。然後,這些資源會與您在建立過程中指定的IAM角色和網路設定 (子網路和安全群組) 相關聯。
AWS Glue 會使用私有 IP 地址在您的子網路中建立彈性網路介面。任務會使用這些彈性網路介面存取您的資料來源和資料目標。進出作業執行環境中和內部的流量受您的 VPC和聯網政策所管理,但有一個例外:呼叫 AWS Glue 程式庫可以將流量代理到 AWS Glue API 透過 操作 AWS Glue VPC。全部 AWS Glue API 會記錄 呼叫;因此,資料擁有者可以透過啟用 來稽核API存取權AWS CloudTrail,將稽核日誌傳遞至您的帳戶。
AWS Glue 執行ETL任務的受管環境,會受到與 AWS 其他服務相同的安全實務保護。如需實務和共同安全責任的概觀,請參閱AWS 安全程序簡介白皮書。