用於更新生產環境中模型的部署護欄 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於更新生產環境中模型的部署護欄

部署護欄是 Amazon SageMaker AI Inference 中的一組模型部署選項,可在生產環境中更新機器學習模型。使用全受控部署選項,您可以控制從生產環境中的目前模型切換到新模型。藍/綠部署中的流量轉移模式 (例如 Canary 和線性) 可讓您在更新過程中精細控制從目前模型到新模型的流量轉移程序。此外,還有內建的保護措施,例如自動還原,可協助您及早找出問題,並在問題大幅影響生產之前自動採取修正措施。

部署防防護機制提供以下優勢:

  • 更新生產環境時的部署安全性。對生產環境的迴歸更新可能會導致意外的停機時間和業務影響,例如增加模型延遲和高錯誤率。部署防護機制可透過提供最佳實務和內建的操作安全防護機制,協助您降低這些風險。

  • 全受管部署。 SageMaker AI 負責設定和協調這些部署,並將其與端點更新機制整合。您不需要建置和維護協調流程、監控或復原機制。您可以利用 SageMaker AI 來設定和協調這些部署,並專注於為您的應用程式利用 ML。

  • 可見性。您可以透過 DescribeEndpointAPI或 Amazon CloudWatch Events (適用於支援的端點) 追蹤部署進度。若要進一步了解 SageMaker AI 中的事件,請參閱 中的端點部署狀態變更一節Amazon SageMaker AI 傳送至 Amazon 的事件 EventBridge。請注意,如果您的端點使用 Exclusions頁面中的任何功能,則無法使用 CloudWatch Events。

注意

部署 防護機制僅適用於 非同步推論即時推論 端點類型。

如何開始

我們支援兩種部署類型,以更新生產環境中的模型:藍/綠部署和滾動部署。

  • 藍/綠部署:您可以透過更新將舊機群 (藍色機群) 的流量轉移到新機群 (綠色機群)。藍/綠部署提供多種流量轉移模式。流量轉移模式是一種組態,指定 SageMaker AI 如何將端點流量路由到包含您更新的新機群。下列流量轉移模式可為您提供端點更新程序的不同層級控制:

    • 一次使用所有流量轉移 將您的所有端點流量從藍色機群轉移到綠色機群。一旦流量轉移到綠色機群,預先指定的 Amazon CloudWatch 警示會開始監控綠色機群一段設定的時間 (烘烤期間)。如果沒有警示在烘焙期間觸發,則 SageMaker AI 會終止藍色機群。

    • 使用 Canary 流量轉移 將您的流量的一小部分 (Canary) 轉移到綠色機群,並對其進行監控一段製作中期間。如果 Canary 在綠色機群上成功,則 SageMaker AI 會在終止藍色機群之前,將其餘流量從藍色機群轉移到綠色機群。

    • 使用線性流量轉移 針對流量轉移步驟數量和每個步驟要轉移的流量百分比,提供更多的自訂功能。雖然 Canary 轉移可讓您分兩個步驟轉移流量,但線性轉移將其擴展到 n 個線性間隔的步驟。

  • 使用滾動部署:您可以在 SageMaker AI 逐步佈建容量時更新端點,並依您指定的批次大小步驟將流量轉移到新的機群。新機群上的執行個體會更新為新的部署組態,如果在烘焙期間沒有 CloudWatch 警示觸發,則 SageMaker AI 會清除舊機群上的執行個體。此選項可讓您精細控制執行個體計數或每個步驟轉移的容量百分比。

您可以透過 和 AWS Command Line Interface 命令來建立UpdateEndpointCreateEndpoint SageMaker API和管理部署。有關如何設置部署的詳細資訊,請參閱各個部署頁面。請注意,如果您的端點使用 Exclusions 頁面中列出的任何功能,則無法使用部署防護機制。

要遵循說明如何使用部署護欄的指導範例,請參閱我們的範例 Jupyter 筆記本適用於金絲雀和線性交通轉移模式。