負載測試您的自動擴展組態

執行負載測試，以選擇以您想要方式運作的擴展組態。

下列負載測試準則假設您使用的是使用預先定義目標指標的擴展政策SageMakerVariantInvocationsPerInstance。

主題

決定效能特性
計算目標負載

決定效能特性

進行負載測試，以找出您的模型生產變體執行個體可處理的峰值 InvocationsPerInstance，和並行作業增加時的請求延遲。

這個值取決於所選擇的執行個體類型、模型的用戶端通常會傳送的酬載，以及模型所具備任何外部相依項目的效能。

若要尋找模型的生產變體可以處理請求的峰值 requests-per-second （RPS）和延遲

使用單一執行個體，來設定您模型的端點。關於設定端點的方法，詳細資訊請參閱將模型部署至 SageMaker 託管服務。
使用負載測試工具產生越來越多的平行請求，並在負載測試工具的輸出位置監控 RPS和模型延遲。

注意
您也可以監控 requests-per-minute ，而不是 RPS。在這個情境中，不需要在方程式中乘上 60 以求出 SageMakerVariantInvocationsPerInstance，如下所示。

當模型延遲增加或成功交易的比例減少時，這是RPS模型可以處理的峰值。

計算目標負載

找到變體的效能特性後，您可以判斷RPS我們應該允許傳送至執行個體的最大值。用於擴展的閾值，必須小於這個最大值。使用下列方程式搭配負載測試，判斷擴展組態中SageMakerVariantInvocationsPerInstance目標指標的正確值。


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

其中 MAX_RPS 是您先前RPS決定的最大，SAFETY_FACTOR也是您選擇以確保用戶端不超過最大的安全因素RPS。將轉換為的 60 乘以，RPS invocations-per-minute以符合 SageMaker 用於實作自動擴展的每分鐘 CloudWatch 指標（如果您測量 requests-per-minute 而非，則不需要這麼做 requests-per-second）。

注意

SageMaker 建議您使用 0.5 SAFETY_FACTOR的開始測試。測試您的擴展組態，確保它以您預期的方式與您的模型一起運作，以增加和減少端點上的客戶流量。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

檢查擴展活動的狀態

使用 AWS CloudFormation 建立擴展政策

負載測試您的自動擴展組態

主題

決定效能特性

若要尋找模型的生產變體可以處理請求的峰值 requests-per-second （RPS） 和延遲

注意

計算目標負載

注意

若要尋找模型的生產變體可以處理請求的峰值 requests-per-second （RPS）和延遲