調用無伺服器端點 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

調用無伺服器端點

為使用無伺服器端點執行推論,您必須向端點傳送 HTTP 請求。您可以使用 InvokeEndpoint API 或 AWS CLI,提出叫用端點的POST請求。無伺服器調用的最大請求數量和回應承載大小上限為 4 MB。無伺服器端點:

  • 該模型必須下載,並且服務器必須在 3 分鐘內成功回應 /ping

  • 容器回應 /invocations 的推論請求的逾時時間為 1 分鐘。

調用端點

下列範例會使用適用於 Python 的AWS SDK (Boto3) 來呼叫 InvokeEndpoint API。請注意,與本指南中的其他 API 呼叫不同,對於 InvokeEndpoint,您必須使用 SageMaker Runtime Runtime 做為用戶端。指定下列值:

  • endpoint_name 中,使用您要調用的服務中無伺服器端點的名稱。

  • content_type 中,在請求內文裡指定輸入資料的 MIME 類型 (例如 application/json)。

  • payload 中,使用您的請求有效負載進行推論。您的有效負載應以字節或類似文件的物件為單位。

runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload = <your-request-body> response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )