As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Inferência em tempo real de baixa latência com AWS PrivateLink
A Amazon SageMaker AI fornece baixa latência para inferências em tempo real, mantendo alta disponibilidade e resiliência usando a implantação Multi-AZ. A latência da aplicação é composta por dois componentes primários: latência de infraestrutura ou sobrecarga e latência de inferência do modelo. A redução da latência de sobrecarga abre novas possibilidades, como a implantação de modelos mais complexos, profundos e precisos ou a divisão de aplicações monolíticos em módulos de microsserviços escaláveis e de fácil manutenção. Você pode reduzir a latência para inferências em tempo real com SageMaker IA usando uma AWS PrivateLink implantação. Com AWS PrivateLink, você pode acessar de forma privada todas as operações de SageMaker API da sua Virtual Private Cloud (VPC) de forma escalável usando endpoints de VPC de interface. Uma interface VPC endpoint é uma interface de rede elástica em sua sub-rede com endereços IP privados que serve como ponto de entrada para todas as chamadas de API. SageMaker
Por padrão, um endpoint de SageMaker IA com 2 ou mais instâncias é implantado em pelo menos 2 zonas de AWS disponibilidade (AZs) e instâncias em qualquer AZ podem processar invocações. Isso resulta em um ou mais “saltos” de AZ que contribuem para a latência de sobrecarga. Uma implantação AWS PrivateLink com a opção privateDNSEnabled
definida como true
alivia isso ao atingir dois objetivos:
-
Ele mantém todo o tráfego de inferência em sua VPC.
-
Ele mantém o tráfego de invocação na mesma AZ do cliente que o originou ao usar o Runtime. SageMaker Isso evita os “saltos” entre a AZs redução da latência de sobrecarga.
As seções a seguir deste guia demonstram como você pode reduzir a latência para inferências em tempo real com AWS PrivateLink a implantação.
Tópicos
Implantar AWS PrivateLink
Para implantar AWS PrivateLink, primeiro crie um endpoint de interface para a VPC a partir do qual você se conecta aos SageMaker endpoints de IA. Siga as etapas em Acessar um AWS serviço usando um endpoint VPC de interface para criar o endpoint de interface. Ao criar o endpoint, selecione as seguintes configurações na interface do console:
-
Marque a caixa de seleção Ativar nome DNS em Configurações adicionais
-
Selecione os grupos de segurança apropriados e as sub-redes a serem usadas com os endpoints de SageMaker IA.
Certifique-se também de que a VPC tenha os nomes de host DNS ativados. Para obter mais informações sobre como alterar atributos DNS para sua VPC, consulte Exibir e atualizar atributos DNS para sua VPC.
Implemente um endpoint de SageMaker IA em uma VPC
Para obter baixa latência de sobrecarga, crie um endpoint de SageMaker IA usando as mesmas sub-redes que você especificou durante a implantação. AWS PrivateLink Essas sub-redes devem corresponder às AZs do seu aplicativo cliente, conforme mostrado no trecho de código a seguir.
model_name =
'<the-name-of-your-model>'
vpc ='vpc-0123456789abcdef0'
subnet_a ='subnet-0123456789abcdef0'
subnet_b ='subnet-0123456789abcdef1'
security_group ='sg-0123456789abcdef0'
create_model_response = sagemaker_client.create_model( ModelName = model_name, ExecutionRoleArn = sagemaker_role, PrimaryContainer = { 'Image': container, 'ModelDataUrl': model_url }, VpcConfig = { 'SecurityGroupIds': [security_group], 'Subnets': [subnet_a, subnet_b], }, )
O trecho de código mencionado acima pressupõe que você tenha seguido as etapas em Antes de começar.
Invoque o endpoint de SageMaker IA
Por fim, especifique o cliente SageMaker Runtime e invoque o endpoint de SageMaker IA conforme mostrado no trecho de código a seguir.
endpoint_name =
'<endpoint-name>'
runtime_client = boto3.client('sagemaker-runtime') response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, ContentType='text/csv', Body=payload)
Para obter mais informações sobre a configuração de endpoint, consulte Implantar modelos para inferência em tempo real.