本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將 Athena Connect 到阿帕奇蜂巢中繼存儲
若要將 Athena 連接到 Apache Hive 中繼存放區,您必須建立和設定 Lambda 函數。關於基本實作,您可以從 Athena 管理主控台開始執行所有必要的步驟。
注意
下列程序需要您具備建立 Lambda 函數自訂IAM角色的權限。如果您沒有建立自訂角色的權限,可以使用 Athena 參考實作個別建立 Lambda 函數,然後使用 AWS Lambda 主控台選擇函數的現有IAM角色。如需詳細資訊,請參閱使用現有的IAM執行角色將 Athena Connect 到 Hive 中繼存儲。
若要將 Athena 連接到 Hive 中繼存放區
在 https://console.aws.amazon.com/athena/
中開啟 Athena 主控台。 如果未顯示主控台的導覽窗格,請選擇左側的展開選單。
-
選擇 Data Source (資料來源)。
-
在主控台的右上角,選擇 Create data source (建立資料來源)。
-
在 Choose a data source (選擇資料來源) 頁面上,針對 Data source (資料來源) 選擇 S3 - Apache Hive metastore (S3 - Apache Hive 中繼存放區)。
-
選擇 Next (下一步)。
-
在 [資料來源詳細資料] 區段中,對於資料來源名稱,輸入您從 Athena 查詢資料來源時要在SQL陳述式中使用的名稱。名稱最多可包含 127 個字元,且在您的帳戶中必須是唯一的。建立後便無法變更。有效字元包括 a-z、A-Z、0-9、_ (底線)、@ (at 符號) 和 - (連字號)。Athena 已保留名稱
awsdatacatalog
、hive
、jmx
和system
,這些名稱不能用於資料來源名稱。 -
對於 Lambda 函數,請選擇建立 Lambda 函數,然後選擇在中建立新的 Lambda 函數 AWS Lambda
AthenaHiveMetastoreFunction頁面會在 AWS Lambda 主控台中開啟。此頁面包含連接器的詳細資訊。
在 Application settings (應用程式設定) 下,輸入您的 Lambda 函數的參數。
-
LambdaFuncName— 提供函數的名稱。例如,myHiveMetastore.
-
SpillLocation— 在此帳戶中指定 Amazon S3 位置,以便在 Lambda 函數回應大小超過 4 MB 時保留溢出的中繼資料。
-
HMSUris— 輸入在端口 9083 使用節儉協議URI的 Hive 元存儲主機。使用語法
thrift://<host_name>:9083
。 -
LambdaMemory— 指定介於 128 MB 到 3008 MB 之間的值。Lambda 函數的分配CPU週期與您設定的記憶體量成比例。預設值為 1024。
-
LambdaTimeout— 指定允許 Lambda 叫用的最大執行時間,以秒為單位,從 1 到 900 (900 秒為 15 分鐘)。預設值為 300 秒 (5 分鐘)。
-
VPCSecurityGroupIds— IDs 為 Hive 中繼存放區輸入以逗號分隔的VPC安全群組清單。
-
VPCSubnetIds— 輸入 Hive 中繼存放區的VPC子網路IDs逗號分隔清單。
-
-
選取 [我確認此應用程式會建立自訂IAM角色],然後選擇 [部署]。
部署完成時,您的函數會顯示在 Lambda 應用程式清單中。現在 Hive 中繼存放區函數已部署到您的帳戶,您可以設定 Athena 以使用它。
-
返回 Athena 主控台的 Enter data source details (輸入資料來源) 頁面。
-
在 Lambda function (Lambda 函數) 區段中,選擇 Lambda 函數搜尋方塊旁的重新整理圖示。重新整理可用函數的清單可以使您新建立的函數出現在清單中。
-
選擇您剛才在 Lambda 主控台中建立的函數名稱。此時ARN會顯示 Lambda 函數。
-
(選用) 在 Tags (標籤) 中,新增要與此資料來源相關聯的鍵值對。如需標籤的詳細資訊,請參閱標籤 Athena 資源。
-
選擇 Next (下一步)。
-
在 Review and create (檢閱並建立) 頁面上,檢閱資料來源詳細資訊,然後選擇 Create data source (建立資料來源)。
-
該頁面的 Data source details (資料來源詳細資訊) 區段顯示了有關新連接器的資訊。
您現在可以在 Athena 的SQL查詢中使用指定來參考 Hive 中繼存放區的資料來源名稱。在您的SQL查詢中,使用下列範例語法,取代
hms-catalog-1
為您先前指定的目錄名稱。SELECT * FROM hms-catalog-1.CustomerData.customers
-
如需有關查看、編輯或刪除您建立的資料來源的資訊,請參閱 管理您的資料來源。