本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 Amazon SageMaker 筆記本執行個體
重要
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授予許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記他們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則嘗試建立資源時可能會發生「AccessDenied」錯誤。如需詳細資訊,請參閱提供標記 SageMaker AI 資源的許可。
AWS Amazon SageMaker AI 的 受管政策 提供建立 SageMaker 資源的許可,已包含建立這些資源時新增標籤的許可。
Amazon SageMaker 筆記本執行個體是執行 Jupyter Notebook 應用程式的 ML 運算執行個體。SageMaker AI 會管理建立執行個體和相關資源。在筆記本執行個體中使用 Jupyter 筆記本來:
-
準備和處理資料
-
編寫程式碼來訓練模型
-
將模型部署至 SageMaker AI 託管
-
測試或驗證您的模型
若要建立筆記本執行個體,請使用 SageMaker AI 主控台或
CreateNotebookInstance
API。
您選擇的筆記本執行個體類型取決於您使用筆記本執行個體的方式。確保您的筆記本執行個體不受記憶體、CPU 或 IO 的限制。若要將資料集載入筆記本執行個體上的記憶體以進行探索或預先處理,請選擇具有足夠 RAM 記憶體的執行個體類型,以供資料集使用。這需要具有至少 16 GB 記憶體 (.xlarge 或更大) 的執行個體。如果您打算使用筆記本進行運算密集的預先處理,我們建議您選擇運算最佳化執行個體,例如 c4 或 c5。
使用 SageMaker 筆記本時的最佳實務是使用筆記本執行個體來協調其他服務 AWS 。例如,您可以使用筆記本執行個體來管理大型資料集處理。若要這樣做,請使用 Hadoop AWS 呼叫 Glue for ETL (擷取、轉換和載入) 服務或 Amazon EMR 進行映射和資料縮減。您可以使用 AWS 服務做為資料的臨時運算或儲存形式。
您可以使用 Amazon Simple Storage Service 儲存貯體來存放和擷取訓練和測試資料。然後,您可以使用 SageMaker AI 來訓練和建置模型。因此,筆記本的執行個體類型不會影響模型訓練和測試的速度。
收到請求後,SageMaker AI 會執行下列動作:
-
建立網路介面:如果您選擇選用的 VPC 組態,SageMaker AI 會在 VPC 中建立網路介面。並透過您在請求中提供的子網路 ID,判斷能夠建立子網路的可用區域。SageMaker AI 會將您在請求中提供的安全群組與子網路建立關聯。如需詳細資訊,請參閱將 VPC 中的筆記本執行個體連接外部資源。
-
啟動 ML 運算執行個體:SageMaker AI 在 SageMaker AI VPC 中啟動 ML 運算執行個體。SageMaker AI 會執行組態任務,以允許其管理您的筆記本執行個體。如果您指定 VPC,SageMaker AI 會啟用 VPC 和筆記本執行個體之間的流量。
-
為常見的深度學習平台安裝 Anaconda 套件和程式庫:SageMaker AI 會安裝安裝程式中包含的所有 Anaconda 套件。如更多資訊,請參閱 Anaconda package list
。SageMaker AI 也會安裝 TensorFlow 和 Apache MXNet 深度學習程式庫。 -
連接 ML 儲存磁碟區:SageMaker AI 會將 ML 儲存磁碟區連接至 ML 運算執行個體。您可以利用該磁碟區做為工作區,清除訓練資料集或暫存驗證、測試和其他資料。選擇任何大小介於 5 GB 到 16384 GB 之間的磁碟區,增量為 1 GB。預設值為 5 GB。ML 儲存磁碟區已加密,因此 SageMaker AI 無法判斷磁碟區上可用的可用空間量。因此,您可以在更新筆記本執行個體時增加磁碟區大小,但無法減少磁碟區大小。如果您想降低使用中機器學習 (ML) 儲存磁碟區的大小,請建立具有所需大小的新筆記本執行個體。
只有儲存在
/home/ec2-user/SageMaker
資料夾內的檔案和資料,才會在筆記本執行個體工作階段間保留。當筆記本執行個體停止和重新啟動時,會覆寫儲存在此目錄外的檔案和資料。每個筆記本執行個體的 /tmp 目錄在即時存放區都至少提供 10 GB 的儲存個體。執行個體存放區是非持久性的暫時區塊層級儲存。當執行個體停止或重新啟動時,SageMaker AI 會刪除目錄的內容。此暫時性儲存是筆記本執行個體的根磁碟區的一部分。如果筆記本執行個體使用的執行個體類型支援 NVMe,客戶可以使用該執行個體類型可用的 NVMe 執行個體存放區磁碟區。對於具有 NVMe 存放磁碟區的執行個體,所有執行個體存放磁碟區都會在啟動時自動連接至執行個體。如需執行個體類型及其相關聯 NVMe 存放區磁碟區的詳細資訊,請參閱 Amazon Elastic Compute Cloud 執行個體類型詳細資訊
。 若要讓連接的 NVMe 儲存磁碟區可供您的筆記本執行個體使用,請完成讓執行個體儲存磁碟區可供您的執行個體使用中的步驟。使用根存取或使用生命週期組態指令碼來完成步驟。
注意
NVMe 執行個體存放區磁碟區不是持久性儲存體。此儲存體會隨著執行個體而短暫運作,且每次啟動具有此儲存體的執行個體時都必須重新設定。
-
複製範例 Jupyter 筆記本 - 這些 Python 程式碼範例顯示使用不同演算法和訓練資料集的模型訓練和託管練習。
若要建立 SageMaker AI 筆記本執行個體:
-
在 https://https://console.aws.amazon.com/sagemaker/
開啟 SageMaker AI 主控台。 -
選擇筆記本執行個體,然後選擇建立筆記本執行個體。
-
在建立筆記本執行個體頁面上,提供下列資訊:
-
對於筆記本執行個體名稱,輸入筆記本執行個體的名稱。
-
針對筆記本執行個體類型,請選擇適合您使用案例的執行個體大小。如需支援的執行個體類型和配額清單,請參閱 Amazon SageMaker AI Service Quotas。
-
針對平台識別碼,選擇要在其上建立筆記本執行個體的平台類型。此平台類型決定了您的筆記本執行個體所使用的作業系統和 JupyterLab 版本。有關平台識別碼類型的訊息,請參閱Amazon Linux 2 筆記本執行個體。如需 JupyterLab 版本的詳細資訊,請參閱JupyterLab 版本控制。
重要
在 JupyterLab 1 和 JupyterLab 3 平台上執行的筆記本執行個體將於 2025 年 6 月 30 日終止支援。我們強烈建議您在此日期之前將工作遷移至新的 JupyterLab 4 筆記本執行個體,以確保您擁有安全且支援的環境。如需詳細資訊,請參閱JupyterLab 版本維護。
-
(選用) 其他組態可讓進階使用者建立可在建立或啟動執行個體時執行的 shell 指令碼。此指令碼稱為生命週期組態指令碼,可用來設定筆記本的環境或執行其他功能。如需相關資訊,請參閱 使用 LCC 指令碼自訂 SageMaker 筆記本執行個體。
-
(選用) 其他組態 也可讓您指定連接至筆記本執行個體之機器學習 (ML) 儲存磁碟區的容量 (以 GB 為單位)。您可以選擇 5 GB 到 16,384 GB 之間的大小,增量為 1 GB。您可以使用該磁碟區,以清除訓練資料集,或暫存驗證或其他資料。
-
(選擇性) 針對最低 IMDS 版本,請從下拉式清單中選取版本。如果此值設為 v1,則兩個版本都可以搭配筆記本執行個體使用。如果選取 v2,則只能筆記本執行個體僅能搭配使用 IMDSv2。如需有關 IMDSv2 的資訊,請參閱使用 ImDSv2。
注意
自 2022 年 10 月 31 日起,SageMaker 筆記本執行個體的預設最低 IMDS 版本會從 IMDSv1 變更為 IMDSv2。
自 2023 年 2 月 1 日起,IMDSv1 不再可用於建立新的筆記本執行個體。在此日期之後,您可以建立最低 IMDS 版本為 2 的筆記本執行個體。
-
針對 IAM 角色,選擇帳戶中具有存取 SageMaker AI 資源必要許可的現有 IAM 角色,或建立新的角色。如果您選擇建立新的角色,SageMaker AI 會建立名為 的 IAM 角色
AmazonSageMaker-ExecutionRole-
。 AWS 受管政策YYYYMMDD
THHmmSS
AmazonSageMakerFullAccess
會連接至 角色。此角色提供許可,允許筆記本執行個體呼叫 SageMaker AI 和 Amazon S3。 -
針對根存取,若要為所有筆記本執行個體使用者提供根存取,請選擇啟用。若要移除使用者的根存取權,請選擇停用。如果您提供根存取權,則所有筆記本執行個體使用者都有管理員權限,並且可以存取和編輯其中的所有檔案。
-
(選用) 加密金鑰可讓您使用 AWS Key Management Service (AWS KMS) 金鑰來加密連接至筆記本執行個體的機器學習 (ML) 儲存磁碟區上的資料。如果要在機器學習 (ML) 儲存磁碟區上儲存敏感資訊,請考慮加密資訊。
-
(選用) 網路可讓您將筆記本執行個體放在虛擬私有雲端 (VPC)中。VPC 提供額外的安全性,並限制從 VPC 外部來源存取 VPC 中的資源。如需關於 VPC 更多資訊,請參閱 Amazon VPC 使用者指南。
若要將您的筆記本執行個體新增至 VPC:
-
選擇 VPC 和 SubnetId。
-
針對安全群組,選擇您的 VPC 的預設安全群組。
-
如果您需要筆記本執行個體才能存取網際網路,請啟用直接網際網路存取。針對直接網際網路存取,選擇啟用。網際網路存取可能會使您的筆記本執行個體較不安全。如需更多資訊,請參閱將 VPC 中的筆記本執行個體連接外部資源。
-
-
(選用) 若要建立 Git 儲存庫與筆記本執行個體的關聯性,請選擇預設儲存庫和最多三個其他儲存庫。如需更多資訊,請參閱使用 SageMaker AI 筆記本執行個體的 Git 儲存庫。
-
選擇建立筆記本執行個體。
在幾分鐘內,Amazon SageMaker AI 會啟動 ML 運算執行個體,在此情況下,會啟動筆記本執行個體,並將 ML 儲存磁碟區連接至該執行個體。筆記本執行個體具備預先設定的 Jupyter 筆記本伺服器和一組 Anaconda 程式庫。如需更多資訊,請參閱
CreateNotebookInstance
API。
-
-
當筆記本執行個體的狀態在
InService
時,就可以在主控台中使用筆記本執行個體。選擇筆記本名稱旁邊的開啟 Jupyter,以開啟傳統 Jupyter 儀表板。注意
為了增強 Amazon SageMaker 筆記本執行個體的安全性,所有區域
網域都會在網際網路公有字尾清單 (PSL)notebook
.region
.sagemaker.aws中註冊。為了進一步安全,我們建議您使用具有 __Host-
字首的 Cookie 來設定 SageMaker 筆記本執行個體網域的敏感 Cookie。這將有助於保護您的網域免受跨站請求偽造 (CSRF) 攻擊。如需詳細資訊,請參閱 https://mozilla.org開發人員文件網站上的設定 Cookie 頁面。 您可以選擇開啟 JupyterLab來開啟傳統 JupyterLab 儀表板。儀表板可讓您存取筆記本執行個體,以及包含完整程式碼演練的範例 SageMaker AI 筆記本。這些逐步解說說明如何使用 SageMaker AI 來執行常見的機器學習任務。如需詳細資訊,請參閱存取範例筆記本。如需更多資訊,請參閱控制 SageMaker 筆記本執行個體的根存取權。
如需 Jupyter 筆記本的更多相關資訊,請參閱 Jupyter 筆記本
。