Defina o SageMaker comportamento de cache do modelo de endpoint multimodelo - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Defina o SageMaker comportamento de cache do modelo de endpoint multimodelo

Por padrão, os endpoints de vários modelos armazenam em cache os modelos usados com frequência na memória (CPUouGPU, dependendo se você tem CPU ou tem instâncias de GPU backup) e no disco para fornecer inferência de baixa latência. Os modelos em cache são descarregados e/ou excluídos do disco somente quando um contêiner fica sem memória ou espaço em disco para acomodar um modelo recém-direcionado.

Você pode alterar o comportamento do armazenamento em cache de um endpoint de vários modelos e habilitar ou desabilitar explicitamente o cache do modelo definindo o parâmetro ModelCacheSetting ao chamar create_model.

Recomendamos definir o valor do parâmetro ModelCacheSetting em Disabled para casos de uso que não se beneficiam do armazenamento em cache do modelo. Por exemplo, quando um grande número de modelos precisa ser servido a partir do endpoint, mas cada modelo é invocado apenas uma vez (ou com pouca frequência). Para esses casos de uso, definir o valor do ModelCacheSetting parâmetro para Disabled permitir maiores transações por segundo (TPS) para invoke_endpoint solicitações em comparação com o modo de cache padrão. Mais alto TPS nesses casos de uso é porque SageMaker ocorre o seguinte após a invoke_endpoint solicitação:

  • Descarrega assincronamente o modelo da memória e o exclui do disco imediatamente após ser invocado.

  • Fornece maior simultaneidade para baixar e carregar modelos no contêiner de inferência. CPUTanto GPU para endpoints quanto para endpoints protegidos, a simultaneidade é um fator do número da instância vCPUs do contêiner.

Para obter diretrizes sobre como escolher um tipo de instância de SageMaker ML para um endpoint multimodelo, consulte. Recomendações de instâncias para implantações de endpoint de vários modelos