本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 連線是 Data Catalog 物件,可存放特定資料存放區的登入憑證、URI 字串、虛擬私有雲端 (VPC) 資訊等。 AWS Glue 爬蟲程式、任務和開發端點會使用連線來存取特定類型的資料存放區。您可以針對來源和目標使用連線,並在多個爬蟲程式或擷取、轉換和載入 (ETL) 任務中重複使用相同的連線。
最新版本的 AWS Glue 連線結構描述提供統一的方式來管理跨 AWS 服務和應用程式的資料連線 AWS Glue,例如 Amazon Athena和 Amazon SageMaker AI Unified Studio。
使用連接器和連線的概觀
連線包含連到特定資料存放區所需的屬性。當您建立連線時,連線會儲存在 AWS Glue Data Catalog中。您先選擇連接器,然後根據該連接器建立連線。
您可以訂閱 中非原生支援的資料存放區的連接器 AWS Marketplace,然後在建立連線時使用那些連接器。開發人員也可以建立自己的連接器,而且您可以在建立連線時使用它們。
注意
使用 中的自訂或 AWS Marketplace 連接器建立的連線 AWS Glue Studio 會顯示在 AWS Glue 主控台中,類型設為 UNKNOWN
。
下列步驟說明在 中使用連接器的整體程序 AWS Glue Studio:
-
訂閱 中的連接器 AWS Marketplace,或開發您自己的連接器,並將其上傳至 AWS Glue Studio。如需詳細資訊,請參閱新增連接器至 AWS Glue Studio。
-
檢閱連接器使用資訊。您可以在連接器產品頁面的 Usage (用途) 索引標籤上找到此資訊。例如,如果您按一下此產品頁面 AWS Glue Connector for Google BigQuery
上的 Usage (使用情況) 索引標籤,您會在 Additional Resources (其他資源) 區段看到有關使用此連接器的部落格連結。 -
建立連線。您可以選擇要使用哪個連接器,並提供連線的額外資訊,例如登入憑證、URI 字串和虛擬私有雲端 (VPC) 資訊。如需詳細資訊,請參閱建立連接器的連線。
-
為您的任務建立 IAM 角色。任務會承擔您在建立 IAM 角色時所指定的角色許可。這個 IAM 角色必須具有必要許可,才能對資料存放區進行驗證、從中擷取資料,以及寫入資料。
-
建立 ETL 任務並設定 ETL 任務的資料來源屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
透過新增轉換或其他資料存放區來自訂您的 ETL 任務,如在 中啟動視覺化 ETL 任務 AWS Glue Studio中所述。
-
如果將連接器用於資料目標,請為 ETL 任務設定資料目標屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
藉由設定任務屬性來自訂任務執行環境,如修改任務屬性中所述。
-
執行任務。