Amazon SageMaker Studio Classic 疑難排解 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker Studio Classic 疑難排解

重要

截至 2023 年 11 月 30 日,先前的 Amazon SageMaker Studio 體驗現在已命名為 Amazon SageMaker Studio Classic。以下章節是使用 Studio Classic 應用程式的特定部分。如需使用更新 Studio 體驗的相關資訊,請參閱 Amazon SageMaker Studio

重要

允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂IAM政策也必須授予許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記他們建立的任何資源。如果IAM政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則嘗試建立資源時可能會發生「AccessDenied」錯誤。如需詳細資訊,請參閱提供標記 SageMaker資源的許可

AWS Amazon 的受管政策 SageMaker 提供建立 SageMaker 資源的許可,已包含在建立這些資源時新增標籤的許可。

本主題說明如何在設定和使用期間疑難排解常見的 Amazon SageMaker Studio Classic 問題。以下是使用 Amazon SageMaker Studio Classic 時可能發生的常見錯誤。每個錯誤後面都附有解決方案。

Studio Classic 應用程式問題

啟動和使用 Studio Classic 應用程式時,會發生下列問題。

  • 螢幕沒有載入:清除工作區和等待都沒有用

    啟動 Studio Classic 應用程式時,快顯視窗會顯示下列訊息。無論選取哪個選項,Studio Classic 都不會載入。

    Loading... The loading screen is taking a long time. Would you like to clear the workspace or keep waiting?

    如果在 Studio Classic 工作區中開啟多個索引標籤,或 Amazon 上開啟多個檔案,則 Studio Classic 應用程式可能會延遲啟動EFS。此快顯視窗應在 Studio Classic 工作區準備就緒後幾秒鐘內消失。

    如果您在選取任一選項後,仍看到使用旋轉器的載入畫面,則 Studio Classic 使用的 Amazon Virtual Private Cloud 可能會發生連線問題。 

    若要解決與 Studio Classic 使用的 Amazon Virtual Private Cloud (Amazon VPC) 的連線問題,請確認下列網路組態:

    • 如果您的網域設定為 VpcOnly 模式:請確認 有 Amazon VPC端點 AWS STS,或 NAT 閘道用於傳出流量,包括透過網際網路的流量。如要執行此操作,請依照將 中的 Studio 筆記本VPC連線至外部資源中的步驟進行。

    • 如果您的 Amazon VPC 使用自訂DNS而非 Amazon DNS提供的 設定:請確認路由是針對 Studio Classic VPC使用的每個 Amazon VPC端點使用動態主機組態通訊協定 (DHCP) 進行設定。如需設定預設和自訂DHCP選項集的詳細資訊,請參閱DHCP Amazon 中的選項集VPC

  • 啟動 Studio Classic 時的內部失敗

    啟動 Studio Classic 時,您無法檢視 Studio Classic UI。您也會看到類似下列內容的錯誤,錯誤詳細資訊為內部故障

    Amazon SageMaker Studio The JupyterServer app default encountered a problem and was stopped.

    此錯誤可能是由多種原因引起的。如果完成這些步驟無法解決您的問題,請使用 建立問題 https://aws.amazon.com/premiumsupport/。 

    • 缺少 Amazon EFS掛載目標:Studio Classic 使用 Amazon EFS進行儲存。Amazon EFS磁碟區需要 Amazon SageMaker 網域所建立的每個子網路的掛載目標。如果不小心刪除此 Amazon EFS掛載目標,則 Studio Classic 應用程式無法載入,因為它無法掛載使用者的檔案目錄。如要解決此問題,請嘗試下列步驟:

      驗證或建立掛載目標。
      1. 使用 API呼叫尋找與網域相關聯的 Amazon EFSDescribeDomain磁碟區。 

      2. 登入 AWS Management Console 並在 開啟 Amazon https://console.aws.amazon.com/efs/EFS主控台。

      3. 從 Amazon EFS磁碟區清單中,選取與網域相關聯的 Amazon EFS磁碟區。

      4. 在 Amazon EFS詳細資訊頁面上,選取網路索引標籤。確認設定網域的所有子網路都有掛載目標。

      5. 如果缺少掛載目標,請新增缺少的 Amazon EFS掛載目標。如需指示,請參閱建立和管理掛載目標和安全群組

      6. 建立遺失掛載目標後,啟動 Studio Classic 應用程式。

    • 使用者.local資料夾中的檔案衝突:如果您在 JupyterLab Studio Classic 上使用版本 1,.local則資料夾中的衝突程式庫可能會在啟動 Studio Classic 應用程式時造成問題。若要解決此問題,請將使用者設定檔的預設 JupyterLab 版本更新為 JupyterLab 3.0。如需檢視和更新 JupyterLab 版本的詳細資訊,請參閱 JupyterLab 版本控制

  • ConfigurationError: LifecycleConfig啟動 Studio Classic 時

    啟動 Studio Classic 時,您無法檢視 Studio Classic UI。這是因為連接至網域的預設生命週期組態指令碼發生問題。

    解決生命週期組態問題
    1. 檢視生命週期組態的 Amazon CloudWatch Logs,以追蹤導致失敗的命令。若要檢視記錄,請遵循 從 CloudWatch 日誌驗證生命週期組態程序 中的步驟。

    2. 從使用者設定檔或網域中分離預設指令碼。如需詳細資訊,請參閱更新和分離生命週期組態

    3. 啟動 Studio Classic 應用程式。

    4. 偵錯生命週期組態指令碼。您可以從系統終端執行生命週期組態指令碼以進行故障診斷。當指令碼從終端成功執行時,您可以將指令碼連接到使用者設定檔或網域。

  • SageMaker Studio Classic 核心功能無法使用。

    如果您在開啟 Studio Classic 時收到此錯誤訊息,這可能是由於 Python 套件版本衝突所致。如果您在筆記本或終端機中使用下列命令來安裝與套件相依性有版本衝突的 Python SageMaker 套件,就會發生這種情況。

    !pip install
    pip install --user

    請嘗試下列步驟來解決此問題:

    1. 解除安裝最近安裝的 Python 套件。如果您不確定要解除安裝哪個套件,請使用 建立問題 https://aws.amazon.com/premiumsupport/。 

    2. 重新啟動 Studio Classic:

      1. 檔案功能表關閉 Studio Classic。

      2. 等待一分鐘。

      3. 重新整理頁面或從 開啟頁面,以重新開啟 Studio Classic AWS Management Console。

    如果您解除安裝導致衝突的套件,則應該解決此問題。若要在不再次造成此問題的情況下安裝套件,使用 %pip install 但沒有 --user 旗標。

    如果問題仍然存在,請建立新的使用者設定檔,並使用該使用者設定檔設定您的環境。

    如果這些解決方案未修正問題,請使用 建立問題 https://aws.amazon.com/premiumsupport/。 

  • 無法從 開啟 Studio Classic AWS Management Console。

    如果您無法開啟 Studio Classic,且無法使用所有預設設定建立新的執行中執行個體,請使用 建立問題 https://aws.amazon.com/premiumsupport/。 

KernelGateway 應用程式問題

下列問題是 Studio Classic 中啟動 KernelGateway 的應用程式特有的。

  • 無法存取核心工作階段

    當使用者啟動新筆記本時,他們無法連線至筆記本工作階段。如果 KernelGateway 應用程式的狀態為 In Service,您可以驗證下列項目以解決問題。

    • 檢查安全群組組態

      如果網域是在 VPCOnly 模式下設定,則與網域相關聯的安全群組必須允許 和 JupyterServer KernelGateway 應用程式之間8192-65535連線範圍內的連接埠之間的流量。

      驗證安全群組規則
      1. 使用 DescribeDomain API 呼叫取得與網域相關聯的安全群組。

      2. 登入 AWS Management Console 並在 開啟 Amazon VPC主控台https://console.aws.amazon.com/vpc/

      3. 在導覽窗格中,在安全下,選擇安全群組

      4. 依與網域相關聯的安全群組IDs篩選。

      5. 針對每個安全群組:

        1. 選取安全群組。

        2. 在安全群組詳細資訊頁面中,檢視傳入規則。確認 8192-65535 範圍內的連接埠之間允許流量。

      如需安全群組規則的更多相關資訊,請參閱使用安全群組控制到資源的流量。如需在 VPCOnly 模式下使用 Studio Classic 之需求的詳細資訊,請參閱 將 中的 Studio 筆記本VPC連線至外部資源

    • 驗證防火牆和 WebSocket連線

      如果 KernelGateway 應用程式具有 InService 狀態,且使用者無法連線至 Studio Classic 筆記本工作階段,請驗證防火牆和WebSocket 設定。

      1. 啟動 Studio Classic 應用程式。如需詳細資訊,請參閱啟動 Amazon SageMaker Studio Classic

      2. 開啟網路瀏覽器的開發人員工具列。

      3. 選擇網路標籤。

      4. 搜尋符合下列格式的項目。

        wss://<domain-id>.studio.<region>.sagemaker.aws/jupyter/default/api/kernels/<unique-code>/channels?session_id=<unique-code>

        如果項目的狀態或回應碼不是 101,則您的網路設定會阻止 Studio Classic 應用程式與 KernelGateway 應用程式之間的連線。

        若要解決此問題,請聯絡管理網路設定的團隊,以允許列出 Studio Classic URL並啟用 WebSocket 連線。 

  • 因超出資源配額而無法啟動應用程式

    當使用者嘗試啟動新筆記本時,建立筆記本會失敗,並出現下列其中一個錯誤。這是因為超出資源配額所致。

    • Unable to start more Apps of AppType [KernelGateway] and ResourceSpec(instanceType=[]) for UserProfile []. Please delete an App with a matching AppType and ResourceSpec, then try again

      Studio Classic 支援同一執行個體上最多四個執行中的 KernelGateway 應用程式。若要解決此問題,您可以執行下列項目之一:

      • 刪除在執行個體上執行的現有 KernelGateway 應用程式,然後重新啟動新的筆記本。

      • 在不同的執行個體類型上啟動新筆記本

      如需詳細資訊,請參閱變更執行個體類型

    • An error occurred (ResourceLimitExceeded) when calling the CreateApp operation

      在此情況下,帳戶沒有足夠的限制,無法在指定的執行個體類型上建立 Studio Classic 應用程式。若要解決此問題,請前往位於 的 Service Quotas 主控台https://console.aws.amazon.com/servicequotas/。在該控制台中,請求增加 Studio KernelGateway Apps running on instance-type instance 限制。如需更多相關資訊,請參閱 AWS Service Quotas