本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
非同步推論
Amazon SageMaker 非同步推論是將傳入請求排入佇列並以非同步方式處理它們的功能。 SageMaker 此選項適用於具有承載大小較大 (最大不超過 1GB)、處理時間計時較長 (最多不超過一小時) 以及接近即時延遲需求的請求。非同步推論可讓您在沒有要處理的請求時,將執行個體計數自動調整為零,藉此節省成本,因此您只需在端點正在處理請求時才支付費用。
運作方式
建立一個非同步推論端點與建立即時推論端點類似。您可以使用現有的 SageMaker 模型,並且只需要在使用 CreateEndpointConfig
API 中的EndpointConfig
字段創建端點配置時指定AsyncInferenceConfig
對象。下圖顯示非同步推論的架構和工作流程。

若要叫用端點,您需要將請求承載放在 Amazon S3 中。您還需要提供一個指向此有效負載的指針作為InvokeEndpointAsync
請求的一部分。在調用時,將請求 SageMaker 排隊進行處理,並返回一個標識符和輸出位置作為響應。處理後, SageMaker 將結果放置在 Amazon S3 位置。您可以選擇性選擇使用 Amazon SNS 接收成功或錯誤通知。有關如何設置異步通知的詳細資訊,請參閱檢查預測結果。
注意
端點組態中存在非同步推論組態 (AsyncInferenceConfig
) 物件,表示端點只能接收非同步調用。
我該如何開始?
如果您是 Amazon SageMaker 非同步推論的首次使用者,建議您執行下列動作:
-
已閱讀 非同步端點操作,瞭解有關如何建立、調用、更新和刪除異步終端節點的資訊。
-
探索 aws/ amazon-sagemaker-examples
GitHub 儲存庫中的非同步推論範例筆記本 。
請注意,如果您的端點使用此Exclusions頁面中列出的任何功能,則無法使用非同步推論。