本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於更新生產中模型的部署防護措施
部署護欄是 Amazon SageMaker Inference 中的一組模型部署選項,用於更新生產中的機器學習模型。使用全受控部署選項,您可以控制從生產環境中的目前模型切換到新模型。藍/綠部署中的流量轉移模式 (例如 Canary 和線性) 可讓您在更新過程中精細控制從目前模型到新模型的流量轉移程序。此外,還有內建的保護措施,例如自動還原,可協助您及早找出問題,並在問題大幅影響生產之前自動採取修正措施。
部署防防護機制提供以下優勢:
更新生產環境時的部署安全性。對生產環境的迴歸更新可能會導致意外的停機時間和業務影響,例如增加模型延遲和高錯誤率。部署防護機制可透過提供最佳實務和內建的操作安全防護機制,協助您降低這些風險。
完全受管的 deployment. SageMaker 負責設定和協調這些部署,並將其與端點更新機制整合。您不需要建置和維護協調流程、監控或復原機制。您可以利用 SageMaker 來設定和協調這些部署,並專注於為您的應用程式利用 ML。
可見性。您可以透過 DescribeEndpointAPI或 Amazon CloudWatch Events 追蹤部署進度 (適用於支援的端點 )。若要進一步了解 中的事件 SageMaker,請參閱 中的端點部署狀態變更一節Amazon SageMaker 傳送至 Amazon 的事件 EventBridge。請注意,如果您的端點使用 Exclusions頁面中的任何功能,則無法使用 CloudWatch Events。
如何開始
我們支援兩種部署類型,以更新生產環境中的模型:藍/綠部署和滾動部署。
-
藍/綠部署:您可以透過更新將舊機群 (藍色機群) 的流量轉移到新機群 (綠色機群)。藍/綠部署提供多種流量轉移模式。流量轉移模式是一種組態,指定如何將端點流量 SageMaker 路由到包含更新的新機群。下列流量轉移模式可為您提供端點更新程序的不同層級控制:
-
一次使用全部流量轉移 將您的所有端點流量從藍色機群轉移到綠色機群。一旦流量轉移到綠色機群,預先指定的 Amazon CloudWatch 警示會開始監控綠色機群一段設定的時間 (烘烤期間 )。如果烘焙期間沒有警示跳閘, 則會 SageMaker 終止藍色機群。
-
使用 Canary 流量轉移 將您的流量的一小部分 (Canary) 轉移到綠色機群,並對其進行監控一段製作中期間。如果 Canary 在綠色機群上成功,則在終止藍色機群之前,將其餘流量從藍色機群 SageMaker 轉移到綠色機群。
-
使用線性流量轉移 針對流量轉移步驟數量和每個步驟要轉移的流量百分比,提供更多的自訂功能。雖然 Canary 轉移可讓您分兩個步驟轉移流量,但線性轉移將其擴展到 n 個線性間隔的步驟。
-
-
使用滾動部署:您可以將端點更新為 SageMaker 逐步佈建容量,並按照您指定的批次大小的步驟將流量轉移到新的機群。新機群上的執行個體會更新為新的部署組態,如果在烘焙期間沒有 CloudWatch 警示跳閘,則會 SageMaker 清除舊機群上的執行個體。此選項可讓您精細控制執行個體計數或每個步驟轉移的容量百分比。
您可以透過 和 AWS Command Line Interface 命令來建立UpdateEndpointCreateEndpoint SageMaker API和管理部署。有關如何設置部署的詳細資訊,請參閱各個部署頁面。請注意,如果您的端點使用 Exclusions 頁面中列出的任何功能,則無法使用部署防護機制。
要遵循說明如何使用部署護欄的指導範例,請參閱我們的範例 Jupyter 筆記本