在生產環境中更新模型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在生產環境中更新模型

部署防護是 Amazon SageMaker 推論中的一組模型部署選項,可在生產環境中更新您的機器學習模型。使用全受控部署選項,您可以控制從生產環境中的目前模型切換到新模型。藍/綠部署中的流量轉移模式 (例如 Canary 和線性) 可讓您在更新過程中精細控制從目前模型到新模型的流量轉移程序。此外,還有內建的保護措施,例如自動還原,可協助您及早找出問題,並在問題大幅影響生產之前自動採取修正措施。

部署防防護機制提供以下優勢:

  • 更新生產環境時的部署安全性。對生產環境的迴歸更新可能會導致意外的停機時間和業務影響,例如增加模型延遲和高錯誤率。部署防護機制可透過提供最佳實務和內建的操作安全防護機制,協助您降低這些風險。

  • 完全受管的部署。 SageMaker 負責設定和協調這些部署,並將其與端點更新機制整合。您不需要建置和維護協調流程、監控或復原機制。您可以利用設 SageMaker 定和協調這些部署,並專注於針對應用程式運用 ML。

  • 可見性。您可以透過 DescribeEndpointAPI 或透過 Amazon CloudWatch 事件 (針對支援的端點) 追蹤部署進度。若要進一步了解中的事件 SageMaker,請參閱中的端點部署狀態變更一節 SageMaker 使用 Amazon 自動化 Amazon EventBridge。請注意,如果您的端點使用Exclusions頁面中的任何功能,則無法使用 CloudWatch 事件。

注意

部署 防護機制僅適用於 非同步推論即時推論 端點類型。

如何開始

我們支援兩種部署類型,以更新生產環境中的模型:藍/綠部署和滾動部署。

  • 藍/綠部署:您可以透過更新將舊機群 (藍色機群) 的流量轉移到新機群 (綠色機群)。藍/綠部署提供多種流量轉移模式。流量轉移模式是指定如何將端點流量 SageMaker 路由到包含更新的新叢集的組態。下列流量轉移模式可為您提供端點更新程序的不同層級控制:

    • 一次全部流量轉移 將您的所有端點流量從藍色機群轉移到綠色機群。一旦流量轉移到綠色車隊,您預先指定的 Amazon CloudWatch 警報就會開始監控設定的時間長度 (烘焙期間) 的綠色車隊。如果在烘烤期間沒有警報跳動,則 SageMaker 終止藍色艦隊。

    • Canary 流量轉移 將您的流量的一小部分(Canary)轉移到綠色機群,並對其進行監控一段製作中期間。如果金絲雀在綠色艦隊上成功,那麼在終止藍色艦隊之前將其餘交通從藍色艦隊 SageMaker 轉移到綠色艦隊。

    • 線性流量轉移 針對流量轉移步驟數量和每個步驟要轉移的流量百分比,提供更多的自訂功能。雖然 Canary 轉移可讓您分兩個步驟轉移流量,但線性轉移將其擴展到 n 個線性間隔的步驟。

  • 滾動部署:您可以將端點更新為 SageMaker 增量佈建容量,並按照指定批次大小的步驟將流量轉移到新叢集。新叢集上的執行個體會以新的部署設定進行更新,如果在烘烤期間沒有 CloudWatch 警示發生故障,則會 SageMaker 清除舊叢集上的執行個體。此選項可讓您精細控制執行個體計數或每個步驟轉移的容量百分比。

您可以透過和 CreateEndpoint SageMaker API 和 AWS Command Line Interface 指令建立UpdateEndpoint和管理您的部署。有關如何設置部署的詳細信息,請參閱各個部署頁面。請注意,如果您的端點使用 Exclusions 頁面中列出的任何功能,則無法使用部署防護機制。

要遵循演示如何使用部署護欄的指導示例,請參閱我們的示例木星筆記本電腦適用於金絲雀和線性交通轉移模式。