非同步推論 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

非同步推論

Amazon SageMaker 非同步推論是將傳入請求排入佇列並以非同步方式處理它們的功能。 SageMaker 此選項適用於具有承載大小較大 (最大不超過 1GB)、處理時間計時較長 (最多不超過一小時) 以及接近即時延遲需求的請求。非同步推論可讓您在沒有要處理的請求時,將執行個體計數自動調整為零,藉此節省成本,因此您只需在端點正在處理請求時才支付費用。

運作方式

建立一個非同步推論端點與建立即時推論端點類似。您可以使用現有的 SageMaker 模型,並且只需要在使用 CreateEndpointConfig API 中的EndpointConfig字段創建端點配置時指定AsyncInferenceConfig對象。下圖顯示非同步推論的架構和工作流程。

顯示使用者如何呼叫端點的非同步推論架構圖。

若要叫用端點,您需要將請求承載放在 Amazon S3 中。您還需要提供一個指向此有效負載的指針作為InvokeEndpointAsync請求的一部分。在調用時,將請求 SageMaker 排隊進行處理,並返回一個標識符和輸出位置作為響應。處理後, SageMaker 將結果放置在 Amazon S3 位置。您可以選擇性選擇使用 Amazon SNS 接收成功或錯誤通知。有關如何設置異步通知的詳細資訊,請參閱檢查預測結果

注意

端點組態中存在非同步推論組態 (AsyncInferenceConfig) 物件,表示端點只能接收非同步調用。

我該如何開始?

如果您是 Amazon SageMaker 非同步推論的首次使用者,建議您執行下列動作:

請注意,如果您的端點使用此Exclusions頁面中列出的任何功能,則無法使用非同步推論。