本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
連線至資料
AWS Glue 連線是 Data Catalog 物件,可存放特定資料存放區的登入憑證、URI字串、虛擬私有雲端 (VPC) 資訊等。 AWS Glue 爬蟲程式、任務和開發端點會使用連線來存取特定類型的資料存放區。您可以同時使用來源和目標的連線,並在多個爬蟲程式或擷取、轉換和載入 (ETL) 任務之間重複使用相同的連線。
使用連接器和連線的概觀
連線包含連到特定資料存放區所需的屬性。當您建立連線時,連線會儲存在 AWS Glue Data Catalog中。您先選擇連接器,然後根據該連接器建立連線。
您可以訂閱 中非原生支援的資料存放區的連接器 AWS Marketplace,然後在建立連線時使用那些連接器。開發人員也可以建立自己的連接器,而且您可以在建立連線時使用它們。
注意
使用 中的自訂或 AWS Marketplace 連接器建立的連線 AWS Glue Studio 會顯示在 AWS Glue 主控台中,類型設定為 UNKNOWN
。
下列步驟說明在 中使用連接器的整體程序 AWS Glue Studio:
-
訂閱 中的連接器 AWS Marketplace,或開發自己的連接器,並將其上傳至 AWS Glue Studio。如需詳細資訊,請參閱新增連接器至 AWS Glue Studio。
-
檢閱連接器使用資訊。您可以在連接器產品頁面的 Usage (用途) 索引標籤上找到此資訊。例如,如果您按一下此產品頁面 AWS Glue Connector for Google BigQuery
的使用索引標籤,您可以在其他資源區段中看到有關使用此連接器的部落格連結。其他連接器可能包含指向 Overview (概觀) 區段的指示連結,如 Cloudwatch Logs connector for AWS Glue 連接器產品頁面上所示。 -
建立連線。您可以選擇要使用的連接器,並提供連線的其他資訊,例如登入憑證、URI字串和虛擬私有雲端 (VPC) 資訊。如需詳細資訊,請參閱建立連接器的連線。
-
為您的任務建立IAM角色。任務會取得您在建立角色時指定的IAM角色許可。此IAM角色必須具有必要的許可,才能對資料存放區進行身分驗證、擷取資料,以及將資料寫入資料。
-
建立ETL任務並設定ETL任務的資料來源屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
透過新增轉換或其他資料存放區來自訂您的ETL任務,如 中所述開始視覺ETL工作 AWS Glue Studio。
-
如果使用資料目標的連接器,請設定ETL任務的資料目標屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
藉由設定任務屬性來自訂任務執行環境,如修改任務屬性中所述。
-
執行任務。