本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
連線至資料
AWS Glue 連線是 Data Catalog 物件,可存放特定資料存放區的登入憑證、URI字串、虛擬私有雲端 (VPC) 資訊等。 AWS Glue 爬蟲程式、任務和開發端點會使用連線來存取特定類型的資料存放區。您可以同時使用來源和目標的連線,並在多個爬蟲程式或擷取、轉換和載入 (ETL) 任務之間重複使用相同的連線。
最新版本的 AWS Glue 連線結構描述提供統一的方式來管理跨 AWS 服務和應用程式的資料連線 AWS Glue,例如 Amazon Athena和 Amazon SageMaker AI Unified Studio。
使用連接器和連線的概觀
連線包含連到特定資料存放區所需的屬性。當您建立連線時,連線會儲存在 AWS Glue Data Catalog中。您先選擇連接器,然後根據該連接器建立連線。
您可以訂閱 中非原生支援資料存放區的連接器 AWS Marketplace,然後在建立連線時使用那些連接器。開發人員也可以建立自己的連接器,而且您可以在建立連線時使用它們。
注意
使用 中的自訂或 AWS Marketplace 連接器建立的連線 AWS Glue Studio 會顯示在 AWS Glue 主控台中,類型設定為 UNKNOWN
。
下列步驟說明在 中使用連接器的整體程序 AWS Glue Studio:
-
訂閱 中的連接器 AWS Marketplace,或開發自己的連接器,並將其上傳至 AWS Glue Studio。如需詳細資訊,請參閱新增連接器至 AWS Glue Studio。
-
檢閱連接器使用資訊。您可以在連接器產品頁面的 Usage (用途) 索引標籤上找到此資訊。例如,如果您按一下此產品頁面 AWS Glue Connector for Google BigQuery
的使用標籤,您可以在其他資源區段中看到有關使用此連接器的部落格連結。 -
建立連線。您可以選擇要使用的連接器,並提供連線的其他資訊,例如登入憑證、URI字串和虛擬私有雲端 (VPC) 資訊。如需詳細資訊,請參閱建立連接器的連線。
-
為您的任務建立 IAM角色。任務會取得您在建立角色時所指定IAM角色的許可。此IAM角色必須具備必要的許可,才能對資料存放區進行身分驗證、擷取資料,以及將資料寫入資料。
-
建立ETL任務並設定ETL任務的資料來源屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
透過新增轉換或其他資料存放區來自訂您的ETL任務,如中所述開始視覺ETL工作 AWS Glue Studio。
-
如果使用資料目標的連接器,請為您的ETL任務設定資料目標屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需詳細資訊,請參閱使用自訂連接器編寫任務。
-
藉由設定任務屬性來自訂任務執行環境,如修改任務屬性中所述。
-
執行任務。
統一連線
使用統一連線時,您可以設定一次資料連線,而且各種 服務可以重複使用該連線,用於資料整合、資料分析和資料科學的使用案例。您可以透過 AWS Glue 主控台建立資料連線,或使用統一資料連線 建立自訂應用程式APIs。透過統一連線,您可以使用針對多個 服務標準化的連線組態範本來設定與資料來源的連線。這些服務 (AWS Glue、 Amazon SageMaker AI Unified Studio 和 Amazon Athena) 可以使用適當的許可組態共用和重複使用相同的連線。
AWS Glue Studio 現在預設會建立統一連線。在 AWS Glue 主控台中,您可以在連線頁面上的連線資料表、連線詳細資訊頁面上查看連線版本,也可以在任務詳細資訊頁面上查看連線資料表。
連線版本會顯示在連線詳細資訊上:
檢視所有連線時,也會顯示連線版本。
最後,可在任務的任務詳細資訊索引標籤中看到連線版本。
使用第 2 版連線時,您有下列擴充的資料連線功能:
-
連線類型探索:支援使用標準化範本建立連線。 AWS Glue 會自動探索您可以存取的連線類型,以及指定連線類型所需的選用輸入。
-
可重複使用性:可跨 AWS 資料處理引擎和工具重複使用的連線定義 AWS Glue,例如 Amazon Athena和 Amazon SageMaker AI。連線現在包含 AthenaProperties SparkProperties, PythonProperties 除了存放在 中的常見屬性之外,還允許 指定運算環境/服務特定的連線屬性 ConnectionProperties。Athena 現在 AWS Glue 會透過在 AthenaProperties 屬性映射中指定 Athena 特定屬性,在 中建立連線。
-
資料預覽:能夠從連線來源瀏覽中繼資料和預覽資料。
-
連接器中繼資料:可以使用可重複使用的連線來探索資料表中繼資料。
-
服務連結秘密:使用者可以在
CreateConnection
請求中提供必要的 OAuth、基本或自訂身分驗證憑證。會在您的帳戶中 CreateConnection API建立服務連結秘密,並代表您存放登入資料。