Criar uma configuração de endpoint - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar uma configuração de endpoint

Após criar um modelo, crie uma configuração de endpoint. Em seguida, você pode implantar seu modelo usando as especificações na configuração do endpoint. Na configuração, você especifica se deseja um endpoint em tempo real ou sem servidor. Para criar uma configuração de endpoint sem servidor, você pode usar o console Amazon SageMaker AI, a CreateEndpointConfigAPI ou o. AWS CLI As abordagens de API e console estão descritas nas seções a seguir.

Para criar uma configuração de endpoint (usando API)

O exemplo a seguir usa o AWS SDK para Python (Boto3) para chamar a API. CreateEndpointConfig Especifique os seguintes valores:

  • Em EndpointConfigName, escolha um nome para a configuração do endpoint. O nome deve ser exclusivo em sua conta em uma Região.

  • (Opcional) ParaKmsKeyId, use o ID da chave, o ARN da chave, o nome do alias ou o ARN do alias para uma AWS KMS chave que você deseja usar. SageMaker A IA usa essa chave para criptografar sua imagem do Amazon ECR.

  • Em ModelName, use o nome do modelo que você deseja implantar. Deve ser o mesmo modelo que você usou na etapa Criar um modelo.

  • Para ServerlessConfig:

    • Defina MemorySizeInMB como 2048. Neste exemplo, definimos o tamanho da memória para 2048 MB, mas você pode escolher qualquer um dos seguintes valores para o tamanho de memória: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB ou 6144 MB.

    • Defina MaxConcurrency como 20. Neste exemplo, definimos a simultaneidade máxima como 20. O número máximo de invocações simultâneas que você pode configurar para um endpoint sem servidor é 200, e o valor mínimo que você pode escolher é 1.

    • (Opcional) Para usar a simultaneidade provisionada, defina ProvisionedConcurrency como 10. Para este exemplo, configuramos a concorrência provisionada para 10. O número ProvisionedConcurrency de um endpoint sem servidor deve ser menor ou igual ao número MaxConcurrency. Você pode deixá-lo vazio se quiser usar o endpoint da Inferência Sem Servidor sob demanda. Você pode escalar dinamicamente a simultaneidade de provisões. Para obter mais informações, consulte Escalar automaticamente a simultaneidade provisionada para um endpoint de sem servidor.

response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )

Para criar uma configuração de endpoint (usando o console)

  1. Faça login no console do Amazon SageMaker AI.

  2. Na guia de navegação, escolha Inferência.

  3. Em seguida, escolha Configurações de endpoint.

  4. Escolha Criar configuração de endpoint.

  5. Em Nome de configuração de endpoint, digite um nome que seja exclusivo em sua conta em uma região.

  6. Em Tipo de endpoint, selecione Tecnologia sem servidor.

    Captura de tela da opção de tipo de endpoint no console.
  7. Em Variantes de produção, escolha Adicionar modelo.

  8. Em Adicionar modelo, selecione o modelo que você deseja usar na lista de modelos e escolha Salvar.

  9. Depois de adicionar seu modelo, em Ações, escolha Editar.

  10. Em Tamanho da memória, escolha o tamanho da memória que você deseja em GB.

    Captura de tela da opção de tamanho da memória no console.
  11. Em Simultaneidade máxima, insira o máximo de invocações simultâneas desejadas para o endpoint. O valor máximo que você pode inserir é 200 e o mínimo é 1.

  12. (Opcional) Para usar a simultaneidade provisionada, insira o número desejado de invocações simultâneas no campo de Configuração de simultaneidade provisionada. O número de invocações simultâneas provisionadas deve ser menor ou igual ao número máximo de invocações simultâneas.

  13. Escolha Salvar.

  14. (Opcional) Em Tags, insira pares de chave-valor se quiser criar metadados para a configuração de endpoint.

  15. Escolha Criar configuração de endpoint.