As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar uma configuração de endpoint
Após criar um modelo, crie uma configuração de endpoint. Em seguida, você pode implantar seu modelo usando as especificações na configuração do endpoint. Na configuração, você especifica se deseja um endpoint em tempo real ou sem servidor. Para criar uma configuração de endpoint sem servidor, você pode usar o SageMaker console da Amazon CreateEndpointConfig
Para criar uma configuração de endpoint (usandoAPI)
O exemplo a seguir usa o AWS SDKfor Python (Boto3)
-
Em
EndpointConfigName
, escolha um nome para a configuração do endpoint. O nome deve ser exclusivo em sua conta em uma Região. -
(Opcional) Para
KmsKeyId
, use o ID da chave, a chaveARN, o nome do alias ou o alias ARN de uma AWS KMS chave que você deseja usar. SageMaker usa essa chave para criptografar sua ECR imagem da Amazon. -
Em
ModelName
, use o nome do modelo que você deseja implantar. Deve ser o mesmo modelo que você usou na etapa Criar um modelo. -
Para
ServerlessConfig
:-
Defina
MemorySizeInMB
como2048
. Neste exemplo, definimos o tamanho da memória para 2048 MB, mas você pode escolher qualquer um dos valores a seguir para o tamanho de memória: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB ou 6144 MB. -
Defina
MaxConcurrency
como20
. Neste exemplo, definimos a simultaneidade máxima como 20. O número máximo de invocações simultâneas que você pode configurar para um endpoint sem servidor é 200, e o valor mínimo que você pode escolher é 1. -
(Opcional) Para usar a simultaneidade provisionada, defina
ProvisionedConcurrency
como 10. Para este exemplo, configuramos a concorrência provisionada para 10. O númeroProvisionedConcurrency
de um endpoint sem servidor deve ser menor ou igual ao númeroMaxConcurrency
. Você pode deixá-lo vazio se quiser usar o endpoint de inferência sem servidor sob demanda. Você pode escalar dinamicamente a simultaneidade de provisões. Para obter mais informações, consulte Simultaneidade provisionada de escala automática para um endpoint sem servidor.
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
Para criar uma configuração de endpoint (usando o console)
-
Faça login no SageMakerconsole da Amazon
. -
Na guia de navegação, escolha Inferência.
-
Em seguida, escolha Configurações de endpoint.
-
Escolha Criar configuração de endpoint.
-
Em Nome de configuração de endpoint, digite um nome que seja exclusivo em sua conta em uma região.
-
Em Tipo de endpoint, selecione Tecnologia sem servidor.
-
Em Variantes de produção, escolha Adicionar modelo.
-
Em Adicionar modelo, selecione o modelo que você deseja usar na lista de modelos e escolha Salvar.
-
Depois de adicionar seu modelo, em Ações, escolha Editar.
-
Em Tamanho da memória, escolha o tamanho da memória que você deseja em GB.
-
Em Simultaneidade máxima, insira o máximo de invocações simultâneas desejadas para o endpoint. O valor máximo que você pode inserir é 200 e o mínimo é 1.
-
(Opcional) Para usar a simultaneidade provisionada, insira o número desejado de invocações simultâneas no campo de Configuração de simultaneidade provisionada. O número de invocações simultâneas provisionadas deve ser menor ou igual ao número máximo de invocações simultâneas.
-
Escolha Salvar.
-
(Opcional) Em Tags, insira pares de chave-valor se quiser criar metadados para a configuração de endpoint.
-
Escolha Criar configuração de endpoint.