As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
invocar um endpoint sem servidor
Para realizar a inferência usando um endpoint sem servidor, você deve enviar uma HTTP solicitação ao endpoint. Você pode usar o InvokeEndpointAPIou o AWS CLI, que faz uma POST
solicitação para invocar seu endpoint. O tamanho máximo da carga útil de solicitação e resposta para invocações sem servidor é de 4 MB. Em endpoints sem servidor:
O modelo deve ser baixado e o servidor deve responder com êxito
/ping
em 3 minutos.O tempo limite para o contêiner responder às solicitações de inferência
/invocations
é de 1 minuto.
Para invocar um endpoint
O exemplo a seguir usa o AWS SDKfor Python (Boto3)InvokeEndpoint
, você deve usar o SageMaker Runtime Runtime como cliente. Especifique os seguintes valores:
-
Em
endpoint_name
, use o nome do endpoint sem servidor em serviço que você deseja invocar. -
Para
content_type
, especifique o MIME tipo dos dados de entrada no corpo da solicitação (por exemplo,application/json
). -
Em
payload
, use a carga da solicitação para inferência. Sua carga útil deve estar em bytes ou em um objeto semelhante a um arquivo.
runtime = boto3.client("sagemaker-runtime") endpoint_name = "
<your-endpoint-name>
" content_type = "<request-mime-type>
" payload =<your-request-body>
response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )