負載測試您的自動擴展組態 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

負載測試您的自動擴展組態

執行負載測試以選擇按照您想要的方式運作的擴展配置。

下列負載測試準則假設您使用的資源調度政策使用預先定義的目標測量結果SageMakerVariantInvocationsPerInstance

決定效能特性

進行負載測試,以找出您的模型生產變體執行個體可處理的峰值 InvocationsPerInstance,和並行作業增加時的請求延遲。

這個值取決於所選擇的執行個體類型、模型的用戶端通常會傳送的酬載,以及模型所具備任何外部相依項目的效能。

要查找模型的生產變體可以處理和請求延遲的峰值 requests-per-second (RPS)
  1. 使用單一執行個體,來設定您模型的端點。關於設定端點的方法,詳細資訊請參閱將模型部署到 SageMaker 託管服務

  2. 使用負載測試工具產生越來越多的 parallel 要求,並監控負載測試工具中的RPS和模型延遲。

    注意

    您也可以監視, requests-per-minute 而不是RPS. 在這個情境中,不需要在方程式中乘上 60 以求出 SageMakerVariantInvocationsPerInstance,如下所示。

    當模型延遲增加或成功交易的比例減少時,這是您的模型可以處理的峰值RPS。

計算目標負載

找到變體的效能特性後,您可以決定RPS我們應允許傳送至執行個體的最大值。用於擴展的閾值,必須小於這個最大值。將下列公式與負載測試結合使用,以確定擴展配置中SageMakerVariantInvocationsPerInstance目標量度的正確值。

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

哪裡MAX_RPS是您先前RPS確定的最大值,並且SAFETY_FACTOR是您選擇確保客戶不超過最大值的安全係數RPS。乘以 60 即可從轉換為符合 SageMaker 用RPS來 invocations-per-minute 實作 auto 縮放比例的每分鐘 CloudWatch 量度 (如果您測量 requests-per-minute 而不是,則不需要執行此操作 requests-per-second)。

注意

SageMaker 建議您使用 0.5 開SAFETY_FACTOR始測試。測試您的擴展配置,以確保其運作方式與您的模型一樣,以增加和減少端點上的客戶流量。