連接至叢集 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

連接至叢集

執行 Amazon EMR 叢集時,通常只需執行應用程式來分析資料,然後從 Amazon S3 儲存貯體收集輸出即可。或者,您可能要在叢集執行時與主節點互動。例如,您可能想要連接到主節點執行互動式查詢、檢查日誌檔、偵錯叢集、使用在主節點上執行的應用程式上 (例如 Ganglia) 監控效能問題,以此類推。以下章節描述了您可以用來連接到主節點的技術。

在EMR叢集中,主節點是 Amazon EC2 執行個體,可協調作為任務和核心節點EC2執行的執行個體。主要節點會公開可用來連線到它的公用DNS名稱。根據預設,Amazon EMR 會為主節點以及核心和任務節點建立安全群組規則,以決定您存取節點的方式。

注意

您可以在叢集執行時連接到主節點。叢集終止時,做為主要節點的EC2執行個體會終止,且無法再使用。若要連接到主節點,您還必須對叢集進行驗證。您可以使用 Kerberos 進行身份驗證,也可以在啟動叢集時指定 Amazon EC2 key pair 私密金鑰。如需有關設定 Kerberos 然後連線的詳細資訊,請參閱 使用 Kerberos 與 Amazon 進行身分驗證 EMR。當您從主控台啟動叢集時,Amazon EC2 key pair 私密金鑰會在 [建立叢集] 頁面的 [安全性和存取] 區段中指定。

根據預設, ElasticMapReduce-master 安全性群組不允許輸入SSH存取。您可能需要新增輸入規則,以允許從您想要SSH存取的來源存取 (通TCP訊埠 22)。如需有關修改安全群組規則的詳細資訊,請參閱 Amazon EC2 使用者指南中的將規則新增至安全群組

重要

請勿修改 ElasticMapReduce-master 安全性群組中的其餘規則。修改這些規則可能會干擾叢集的操作。