As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Práticas recomendadas para implantação de modelos em SageMaker serviços de hospedagem
Ao hospedar modelos usando serviços de SageMaker hospedagem, considere o seguinte:
-
Normalmente, um aplicativo cliente envia solicitações ao SageMaker HTTPS endpoint para obter inferências de um modelo implantado. Você também pode enviar solicitações para esse endpoint pelo bloco de anotações Jupyter durante o teste.
-
Você pode implantar um modelo treinado SageMaker em seu próprio destino de implantação. Para fazer isso, você precisa saber o formato específico de algoritmo dos artefatos de modelo gerados pelo treinamento de modelo. Para obter mais informações sobre formatos de saída, consulte a seção correspondente ao algoritmo usado em Formatos de dados comuns para treinamento.
-
Você pode implantar várias variantes de um modelo no mesmo SageMaker HTTPS endpoint. Isso é útil para testar variações de um modelo em produção. Por exemplo, imagine que você colocou um modelo em produção. Você deseja testar uma variação do modelo direcionando uma pequena quantidade de tráfego, digamos 5%, para o novo modelo. Para fazer isso, crie uma configuração de endpoint que descreva as duas variantes do modelo. Especifique a
ProductionVariant
da solicitação na APICreateEndPointConfig
. Para obter mais informações, consulteProductionVariant
. -
Você pode configurar um
ProductionVariant
para usar o aplicativo Auto Scaling. Para obter mais informações sobre a configuração da escalabilidade automática, consulte Escalabilidade automática dos modelos da Amazon SageMaker . -
É possível modificar um endpoint sem parar os modelos que já foram colocados em produção. Por exemplo, é possível adicionar novas variantes de modelo, atualizar as configurações de instância de cálculo de ML das variantes existentes ou alterar a distribuição de tráfego entre as variantes. Para modificar um endpoint, você fornece uma nova configuração de endpoint. SageMaker implementa as mudanças sem nenhum tempo de inatividade. Para obter mais informações, consulte
UpdateEndpoint
eUpdateEndpointWeightsAndCapacities
. -
Alterar ou excluir artefatos de modelo ou alterar o código de inferência após a implantação de um modelo produz resultados imprevisíveis. Se você precisar alterar ou excluir os artefatos de modelo ou alterar o código de inferência, modifique o endpoint fornecendo uma nova configuração de endpoint. Assim que você fornecer a nova configuração de endpoint, poderá alterar ou excluir os artefatos de modelo correspondentes à configuração de endpoint antiga.
-
Se você quiser obter inferências em conjuntos de dados inteiros, considere usar a conversão em lote como alternativa aos serviços de hospedagem. Para obter mais informações, consulte Transformação em lote para inferência com a Amazon SageMaker
Implantar várias instâncias em zonas de disponibilidade
Crie endpoints robustos ao hospedar seu modelo. SageMakeros endpoints podem ajudar a proteger seu aplicativo contra interrupções na Zona de Disponibilidade e falhas de instância. Se ocorrer uma interrupção ou uma instância falhar, tentará distribuir SageMaker automaticamente suas instâncias entre as zonas de disponibilidade. Por esse motivo, é altamente recomendável que você implante várias instâncias para cada endpoint de produção.
Se você estiver usando uma Amazon Virtual Private Cloud (VPC), configure-a VPC com pelo menos duas Subnets
, cada uma em uma zona de disponibilidade diferente. Se ocorrer uma interrupção ou uma instância falhar, a Amazon tentará distribuir SageMaker automaticamente suas instâncias entre as zonas de disponibilidade.
Em geral, para obter um desempenho mais confiável, use Tipos de instâncias menores em diferentes Zonas de disponibilidade para hospedar seus endpoints.
Implemente componentes de inferência para alta disponibilidade. Além da recomendação acima para números de instância, para obter 99,95% de disponibilidade, certifique-se de que seus componentes de inferência estejam configurados para ter mais de duas cópias. Além disso, em sua política gerenciada de auto scaling, defina também o número mínimo de instâncias como duas.