As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Para realizar uma inferência usando um endpoint sem servidor, é necessário enviar uma solicitação HTTP ao endpoint. Você pode usar a InvokeEndpointAPI ou a AWS CLI, que faz uma POST
solicitação para invocar seu endpoint. O tamanho máximo da carga útil da solicitação e resposta para invocações sem servidor é de 4 MB. Em endpoints sem servidor:
O modelo deve ser baixado e o servidor deve responder com êxito
/ping
em 3 minutos.O tempo limite para o contêiner responder às solicitações de inferência
/invocations
é de 1 minuto.
Para invocar um endpoint
O exemplo a seguir usa o AWS SDK para Python (Boto3) para chamar aInvokeEndpoint
, você deve usar o SageMaker Runtime Runtime como cliente. Especifique os seguintes valores:
-
Em
endpoint_name
, use o nome do endpoint sem servidor em serviço que você deseja invocar. -
Em
content_type
, especifique o tipo MIME dos seus dados de entrada no corpo da solicitação (por exemplo,application/json
). -
Em
payload
, use a carga útil da solicitação para inferência. Sua carga útil deve estar em bytes ou em um objeto semelhante a um arquivo.
runtime = boto3.client("sagemaker-runtime")
endpoint_name = "<your-endpoint-name>
"
content_type = "<request-mime-type>
"
payload = <your-request-body>
response = runtime.invoke_endpoint(
EndpointName=endpoint_name,
ContentType=content_type,
Body=payload
)