本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
從 Studio 連線至 EMR Serverless 應用程式
資料科學家和資料工程師可以直接從 Studio 使用者介面探索並連線至 EMR Serverless 應用程式。開始之前,請先依照 中的說明,確定您已建立 EMR Serverless 應用程式從 Studio 建立無EMR伺服器應用程式。
您可以將 EMR Serverless 應用程式直接從 Studio UI 連線至新的 JupyterLab 筆記本,或選擇在執行中的 JupyterLab 應用程式的筆記本中啟動連線。
重要
使用 Studio 時,您只能探索並連線至從私有空間啟動的應用程式的無EMR伺服器 JupyterLab 應用程式。確保無EMR伺服器應用程式位於與 Studio 環境相同的 AWS 區域。您的 JupyterLab 空間必須使用 SageMaker 分佈映像版本 1.10
或更高版本。
若要從 Studio UI 將 EMR Serverless 應用程式連線至新的 JupyterLab 筆記本:
-
在 Studio UI 中,導覽至左側面板,然後在左側導覽功能表中選取資料節點。然後,捲動並選擇 Amazon EMR 應用程式和叢集選項。這會開啟一個頁面,顯示您可以在 Studio 環境內無伺服器EMR應用程式索引標籤下存取的 Amazon 應用程式。
注意
如果您或您的管理員已設定許可,以允許跨帳戶存取無EMR伺服器應用程式,您可以檢視您已授予 Studio 存取權之所有帳戶的應用程式合併清單。
-
選取您要連線至新筆記本的 EMR Serverless 應用程式,然後選擇連接至筆記本 。這會開啟一個模式視窗,顯示您的 JupyterLab 空間清單。
-
-
選取您要從中啟動 JupyterLab應用程式的私有空間,然後選擇開啟筆記本 。這會從您選擇的空間啟動 JupyterLab 應用程式,並開啟新的筆記本。
-
或者,您也可以選擇模態視窗頂端的建立新空間按鈕來建立新的私有空間。輸入空間的名稱,然後選擇建立空間並開啟筆記本 。這會建立具有預設執行個體類型和最新可用 SageMaker 分佈映像的私有空間、啟動 JupyterLab 應用程式,以及開啟新的筆記本。
-
-
選擇您的 EMR Serverless 應用程式可以為任務執行擔任的IAM執行時間執行角色名稱。選取後,連線命令會填入筆記本的第一個儲存格,並啟動與無EMR伺服器應用程式的連線。
重要
若要成功將 JupyterLab 筆記本連線至 EMR Serverless 應用程式,您必須先將執行期角色清單與您的網域或使用者設定檔建立關聯,如 中所述設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式。未完成此步驟將導致您無法建立連線。
連線成功後,會出現一則訊息確認連線、啟動無EMR伺服器應用程式,以及啟動 Spark 工作階段。
注意
當您連線至 EMR Serverless 應用程式時,其狀態會從
Stopped
或 轉換為Created
Started
。
或者,您可以從 JupyterLab 筆記本連線至叢集。
-
選擇筆記本右上角的叢集按鈕。這會開啟一個模式視窗,列出您可以存取的無EMR伺服器應用程式。您可以在無伺服器應用程式索引標籤中查看應用程式。
-
選取您要連線的應用程式,然後選擇連線 。
-
EMR Serverless 支援在設定所需許可時預先載入的執行期IAM角色,如 中所述設定許可,以啟用從 SageMaker Studio 列出和啟動 Amazon EMR 應用程式。未完成此步驟將導致您無法建立連線。
您可以從 Amazon EMR執行角色下拉式選單中選取您的角色。當您連線到無EMR伺服器時,Studio 會將程式碼區塊新增至筆記本的作用中儲存格,以建立連線。
-
作用中儲存格會填入並執行。此儲存格包含連線魔術命令,可將筆記本連接至應用程式。
一旦連接成功,將顯示一則訊息確認連線並啟動 Spark 應用程式。您可以開始將資料處理任務提交至 EMR Serverless 應用程式。