使用部 AWS Serverless Application Repository 署 Hive 資料來源連接器 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用部 AWS Serverless Application Repository 署 Hive 資料來源連接器

若要部署 Hive 的 Athena 資料來源連接器,您可以使用 AWS Serverless Application Repository,而無需從 Athena 主控台開始。使用 AWS Serverless Application Repository 尋找您要使用的連接器、提供連接器所需的參數,然後將連接器部署到您的帳戶。然後,部署連接器後,可以使用 Athena 主控台讓資料來源可供 Athena 使用。

使用將 Hive 的 AWS Serverless Application Repository 資料來源連接器部署到您的帳戶
  1. 登入 AWS Management Console 並開啟無伺服器應用程式存放庫

  2. 選擇在導覽窗格中的 Available applications (可用的應用程式)。

  3. 選取 [顯示建立自訂IAM角色或資源原則的應用程式] 選項。

  4. 在搜尋方塊中,輸入 Hive。出現的連接器包括以下兩個:

    • AthenaHiveMetastoreFunction – Uber Lambda 功能 .jar 檔案。

    • AthenaHiveMetastoreFunctionWithLayer-Lambda 層和瘦 Lambda 函數.jar文件。

    這兩個應用程式具有相同的功能,唯一不同之處在其實作方式。您可以使用上述任一個應用程式來建立 Lambda 函數,將 Athena 連接到您的 Hive 中繼存放區。

  5. 選擇您要使用的連接器名稱。本教學課程使用的是 AthenaHiveMetastoreFunction

    選擇適用於 Hive 的 Athena 資料來源連接器名稱。
  6. Application settings (應用程式設定) 下,輸入您的 Lambda 函數的參數。

    • LambdaFuncName— 提供函數的名稱。例如,myHiveMetastore.

    • SpillLocation— 在此帳戶中指定 Amazon S3 位置,以便在 Lambda 函數回應大小超過 4 MB 時保留溢出的中繼資料。

    • HMSUris— 輸入在端口 9083 使用節儉協議URI的 Hive 元存儲主機。使用語法 thrift://<host_name>:9083

    • LambdaMemory— 指定介於 128 MB 到 3008 MB 之間的值。Lambda 函數的分配CPU週期與您設定的記憶體量成比例。預設值為 1024。

    • LambdaTimeout— 指定允許 Lambda 叫用的最大執行時間,以秒為單位,從 1 到 900 (900 秒為 15 分鐘)。預設值為 300 秒 (5 分鐘)。

    • VPCSecurityGroupIds— IDs 為 Hive 中繼存放區輸入以逗號分隔的VPC安全群組清單。

    • VPCSubnetIds— 輸入 Hive 中繼存放區的VPC子網路IDs逗號分隔清單。

  7. 在 [應用程式詳細資料] 頁面右下方,選取 [我確認此應用程式會建立自訂IAM角色],然後選擇 [部署]。

此時,您可以將 Athena 設定為使用 Lambda 函數連接到您的 Hive 中繼存放區。如需這些步驟,請參閱 將 Athena 設定為使用已部署的 Hive 中繼存放區連接器