創建 Amazon SageMaker 筆記本實例 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

創建 Amazon SageMaker 筆記本實例

重要

允許 Amazon SageMaker 工作室或 Amazon 工作 SageMaker 室經典版創建 Amazon SageMaker 資源的自定義 IAM 政策還必須授予許可才能向這些資源添加標籤。需要向資源添加標籤的權限,因為 Studio 和 Studio 經典版會自動標記它們創建的任何資源。如果 IAM 政策允許 Studio 和 Studio 經典版建立資源,但不允許標記,則在嘗試建立資源時可能會發生 AccessDenied "" 錯誤。如需詳細資訊,請參閱 提供標記資 SageMaker源的權限

AWS Amazon 的受管政策 SageMaker授予建立 SageMaker 資源的權限,已包含在建立這些資源時新增標籤的權限。

Amazon SageMaker 筆記本執行個體是執行 Jupyter 筆記本應用程式的 ML 運算執行個體。 SageMaker 管理實例和相關資源的創建。在筆記本執行個體中使用 Jupyter 筆記本:

  • 準備和處理數據

  • 撰寫程式碼以訓練模型

  • 將模型部署到 SageMaker 託管

  • 測試或驗證您的模型

若要建立筆記本執行個體,請使用 SageMaker 主控台或 CreateNotebookInstanceAPI。

您選擇的筆記本執行個體類型取決於您使用筆記本執行個體的方式。確定您的筆記型電腦執行個體不受記憶體、CPU 或 IO 的繫結。若要將資料集載入記事本執行個體上的記憶體以進行探索或預先處理,請為資料集選擇具有足夠 RAM 記憶體的執行個體類型。這需要具有至少 16 GB 記憶體 (.xlarge 或更大) 的執行個體。如果您打算使用筆記本進行運算密集的預先處理,我們建議您選擇運算最佳化執行個體,例如 c4 或 c5。

使用筆記本的最佳做法是使用 SageMaker 筆記本執行個體來協調其他 AWS 服務。例如,您可以使用筆記本執行個體來管理大型資料集處理。為此,請撥打 AWS Glue 進行 ETL(擷取、轉換和載入)服務或使用 Hadoop 進行映射和減少資料的 Amazon EMR。您可以使用 AWS 服務作為數據的臨時計算或存儲形式。

您可以使用 Amazon 簡單儲存服務儲存貯體來存放和擷取訓練和測試資料。然後,您可以使用 SageMaker 來訓練和建立模型。因此,筆記型電腦的執行個體類型不會影響模型訓練和測試的速度。

收到請求後,請執 SageMaker 行以下操作:

  • 建立網路介面 — 如果您選擇選用的 VPC 組態,請在 VPC 中 SageMaker 建立網路介面。它會使用您在要求中提供的子網路識別碼來決定要在其中建立子網路的可用區域。 SageMaker 將您在要求中提供的安全性群組與子網路產生關聯。如需詳細資訊,請參閱 將 VPC 中的筆記本執行個體連接外部資源

  • 啟動 ML 運算執行個體 — 在 SageMaker VPC 中SageMaker啟動 ML 運算執行個體。 SageMaker 執行允許其管理您的筆記本執行個體的組態工作。如果您已指定 VPC,請 SageMaker 啟用 VPC 和筆記本執行個體之間的流量。

  • 為常見的深度學習平台安裝 Anaconda 套件和函式庫 — SageMaker 安裝安裝程式中包含的所有 Anaconda 套件。如需詳細資訊,請參閱 Anaconda 套件清單。 SageMaker 同時也會安裝 TensorFlow 和 Apache MXNet 深度學習程式庫。

  • 附加 ML 儲存磁碟區 — SageMaker 將 ML 儲存磁碟區附加至 ML 運算執行個體。您可以利用該磁碟區做為工作區,清除訓練資料集或暫存驗證、測試和其他資料。選擇任何大小介於 5 GB 到 16384 GB 之間的磁碟區,增量為 1 GB。預設值為 5 GB。ML 儲存磁碟區已加密,因此 SageMaker 無法判斷磁碟區上的可用空間量。因此,您可以在更新筆記本執行個體時增加磁碟區大小,但無法減少磁碟區大小。如果您想降低使用中機器學習 (ML) 儲存磁碟區的大小,請建立具有所需大小的新筆記本執行個體。

    只有儲存在 /home/ec2-user/SageMaker 資料夾內的檔案和資料,才會在筆記本執行個體工作階段間保留。當筆記本執行個體停止和重新啟動時,會覆寫儲存在此目錄外的檔案和資料。每個筆記本執行個體的 /tmp 目錄在即時存放區都至少提供 10 GB 的儲存個體。執行個體存放區是非持久性的暫時區塊層級儲存。執行個體停止或重新啟動時, SageMaker 會刪除目錄的內容。此暫時性儲存是筆記本執行個體的根磁碟區的一部分。

    如果筆記本執行個體使用的執行個體類型具有 NVMe 支援,客戶可以使用該執行個體類型可用的 NVMe 執行個體儲存磁碟區。對於具有 NVMe 儲存磁碟區的執行個體,所有執行個體儲存磁碟區會在啟動時自動附加至執行個體 如需執行個體類型及其相關 NVMe 存放磁碟區的詳細資訊,請參閱 Amazon 彈性運算雲端執行個體類型詳細資訊。

    若要讓筆記型電腦執行個體使用連接的 NVMe 存放區磁碟區,請完成將執行個體儲存磁碟區設為可用執行個體中的步驟。使用 root 存取權或使用生命週期組態指令碼來完成步驟。

    注意

    NVMe 執行個體儲存磁碟區不是永久性儲存區。此儲存體在執行個體的使用壽命很短,每次啟動具有此儲存體的執行個體時都必須重新設定。

  • 複製範例 Jupyter 筆記本 — 這些 Python 程式碼範例顯示使用不同演算法和訓練資料集的模型訓練和託管練習。

若要建立 SageMaker 記事本執行個體:
  1. 請在以下位置開啟 SageMaker 主控台。 https://console.aws.amazon.com/sagemaker/

  2. 選擇筆記本執行個體,然後選擇建立筆記本執行個體

  3. 建立筆記本執行個體頁面上,提供下列資訊:

    1. 對於筆記本執行個體名稱,輸入筆記本執行個體的名稱。

    2. 針對筆記本執行個體類型,請選擇適合您使用案例的執行個體大小。如需支援的執行個體類型和配額清單,請參閱 Amazon Ser SageMaker vice Quotas

    3. 對於「E lastic Inference」,如果您計劃從筆記本例證執行推論,請選擇要與筆記本例證相關聯的推論加速器類型。如果您不打算從筆記本執行個體進行推論,請選擇「」。如需彈性推論的相關資訊,請參閱使用 Amazon E SageMaker lastic Inference(EI)

    4. 針對平台識別碼,選擇要在其上建立筆記本執行個體的平台類型。此平台類型決定了作業系統以及您的筆記本執行個體所使用的 JupyterLab 版本。有關平台識別碼類型的訊息,請參閱Amazon Linux 2 筆記本執行個體。如需 JupyterLab 版本的詳細資訊,請參閱JupyterLab 版本化

    5. (選用) 其他組態可讓進階使用者建立可在建立或啟動執行個體時執行的 shell 指令碼。此指令碼稱為生命週期組態指令碼,可用來設定筆記本的環境或執行其他功能。如需相關資訊,請參閱使用 LCC 指令碼自訂 SageMaker 筆記本執行個體

    6. (選用) 其他組態 也可讓您指定連接至筆記本執行個體之機器學習 (ML) 儲存磁碟區的容量 (以 GB 為單位)。您可以選擇 5 GB 到 16,384 GB 之間的大小,增量為 1 GB。您可以使用該磁碟區,以清除訓練資料集,或暫存驗證或其他資料。

    7. (選擇性) 針對最低 IMDS 版本,請從下拉式清單中選取版本。如果此值設為 v1,則兩個版本都可以搭配筆記本執行個體使用。如果選取 v2,則只能筆記本執行個體僅能搭配使用 IMDSv2。如需有關 IMDSv2 的資訊,請參閱使用 ImDSv2

      注意

      自 2022 年 10 月 31 日起, SageMaker 筆記型電腦執行個體的預設最低 IMDS 版本會從 IMDSv1 變更為 IMDSv2。

      自 2023 年 2 月 1 日起,IMDSv1 不再可用於建立新的筆記本執行個體。在此日期之後,您可以建立最低 IMDS 版本為 2 的筆記本執行個體。

    8. 對於 IAM 角色,請選擇帳戶中具有必要許可以存取 SageMaker資源的現有 IAM 角色或建立新角色。如果選擇 [建立新角色],請建 SageMaker 立名為的 IAM 角色AmazonSageMaker-ExecutionRole-YYYYMMDDTHHmmSS。受 AWS 管理的原AmazonSageMakerFullAccess則會附加至角色。該角色提供允許筆記本執行個體呼叫 SageMaker 和 Amazon S3 的許可。

    9. 對於 Root 存取權,若要授予所有筆記本執行個體使用者的 root 存取權,請選擇用 若要移除使用者的 root 存取權,請選擇 [停用]。如果您授與 root 存取權,則所有筆記本執行個體使用者都具有管理員權限,而且可以存取和編輯其中的

    10. (選用) 加密金鑰可讓您使用 AWS Key Management Service (AWS KMS) 金鑰來加密連接至筆記本執行個體的機器學習 (ML) 儲存磁碟區上的資料。如果要在機器學習 (ML) 儲存磁碟區上儲存敏感資訊,請考慮加密資訊。

    11. (選用) 網路可讓您將筆記本執行個體放在虛擬私有雲端 (VPC)中。VPC 可提供額外的安全性,並限制從 VPC 外部來源存取 VPC 中的資源。如需關於 VPC 更多資訊,請參閱 Amazon VPC 使用者指南

      若要將您的筆記本執行個體新增至 VPC:

      1. 選擇 VPC 和一個 SubnetId.

      2. 針對安全群組,選擇您的 VPC 的預設安全群組。

      3. 如果您需要筆記本執行個體才能存取網際網路,請啟用直接網際網路存取。針對直接網際網路存取,選擇啟用。網際網路存取可能會使您的筆記本執行個體較不安全。如需更多資訊,請參閱將 VPC 中的筆記本執行個體連接外部資源

    12. (選用) 若要建立 Git 儲存庫與筆記本執行個體的關聯性,請選擇預設儲存庫和最多三個其他儲存庫。如需更多資訊,請參閱將 Git 存儲庫與 SageMaker 筆記本實例關聯

    13. 選擇建立筆記本執行個體

      幾分鐘後,Amazon 就會 SageMaker 啟動 ML 運算執行個體 (在本例中為筆記型電腦執行個體),並在其上附加 ML 儲存磁碟區。筆記本執行個體具備預先設定的 Jupyter 筆記本伺服器和一組 Anaconda 程式庫。如需更多資訊,請參閱 CreateNotebookInstance API。

  4. 當筆記本執行個體的狀態在 InService 時,就可以在主控台中使用筆記本執行個體。選擇筆記本名稱旁邊的開啟 Jupyter,以開啟傳統 Jupyter 儀表板。

    注意

    為了增強 Amazon SageMaker 筆記本執行個體的安全性,所有地區網notebook.region.sagemaker.aws域都會在網際網路公用尾碼清單 (PSL) 中註冊。為了進一步的安全性,我們建議您使用帶有__Host-前置詞的 Cookie,為 SageMaker 筆記本執行個體的網域設定敏感性 Cookie。這將有助於保護您的網域免受跨站請求偽造 (CSRF) 攻擊。如需詳細資訊,請參閱 mozilla.org 開發人員文件網站中的設定 Cookie 頁面。

    您可以選擇「開啟」 JupyterLab 以開啟 JupyterLab控制面板。儀表板可讓您存取筆記本執行個體和範 SageMaker 例筆記本,其中包含完整的程式碼逐步解說。這些逐步解說說明如何使用 SageMaker 來執行一般機器學習工作。如需詳細資訊,請參閱 範例筆記本。如需更多資訊,請參閱控制 SageMaker 筆記本執行個體的根存取權

    如需 Jupyter 筆記本的更多相關資訊,請參閱 Jupyter 筆記本