連線至資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

連線至資料

AWS Glue連線是資料目錄物件,可儲存特定資料存放區的登入認證、URI字串、虛擬私人雲端 (VPC) 資訊等。 AWS Glue 編目器、工作和開發端點會使用連線來存取特定類型的資料存放區。您可以同時針對來源和目標使用連線,並在多個爬行者程式或擷取、轉換和 load (ETL) 工作間重複使用相同的連線。

使用連接器和連線的概觀

連線包含連到特定資料存放區所需的屬性。當您建立連線時,連線會儲存在 AWS Glue Data Catalog 中。您先選擇連接器,然後根據該連接器建立連線。

您可以在中訂閱非原生支援的資料存放區的連接器 AWS Marketplace,然後在建立連線時使用這些連接器。開發人員也可以建立自己的連接器,而且您可以在建立連線時使用它們。

注意

使用自訂或中的連 AWS Marketplace 接器建立的連線AWS Glue Studio會顯示在類型設定為的AWS Glue控制台中UNKNOWN

下列步驟說明在 AWS Glue Studio 中使用連接器的整體程序:

  1. 在中訂閱連接器 AWS Marketplace,或開發您自己的連接器並將其上傳到AWS Glue Studio。如需詳細資訊,請參閱新增連接器至 AWS Glue Studio

  2. 檢閱連接器使用資訊。您可以在連接器產品頁面的 Usage (用途) 索引標籤上找到此資訊。例如,如果您按一下此產品頁面上的 [使用] 索引標籤 [Google AWS Glue 連接器] BigQuery,您可以在 [其他資源] 區段中看到有關使用此連接器的部落格連結。其他連接器可能包含指向 Overview (概觀) 區段的指示連結,如 Cloudwatch Logs connector for AWS Glue 連接器產品頁面上所示。

  3. 建立連線。您可以選擇要使用的連接器,並提供連線的其他資訊,例如登入認證、URI字串和虛擬私人雲端 (VPC) 資訊。如需詳細資訊,請參閱建立連接器的連線

  4. 為您的工作建立IAM角色。工作會採用您在建立IAM角色時指定的權限。此IAM角色必須具有必要的權限,才能對資料存放區進行驗證、擷取資料以及將資料寫入資料。

  5. 建立ETL工作並設定工ETL作的資料來源屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務

  6. 透過新增轉換或其他資料倉庫來自訂ETL工作,如中所述開始視覺ETL工作 AWS Glue Studio

  7. 如果使用連接器做為資料目標,請設定ETL工作的資料目標特性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務

  8. 藉由設定任務屬性來自訂任務執行環境,如修改任務屬性中所述。

  9. 執行任務。