As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Defina o SageMaker comportamento de cache do modelo de endpoint multimodelo
Por padrão, os endpoints de vários modelos armazenam em cache os modelos usados com frequência na memória (CPUouGPU, dependendo se você tem CPU ou tem instâncias de GPU backup) e no disco para fornecer inferência de baixa latência. Os modelos em cache são descarregados e/ou excluídos do disco somente quando um contêiner fica sem memória ou espaço em disco para acomodar um modelo recém-direcionado.
Você pode alterar o comportamento do armazenamento em cache de um endpoint de vários modelos e habilitar ou desabilitar explicitamente o cache do modelo definindo o parâmetro ModelCacheSetting
ao chamar create_model.
Recomendamos definir o valor do parâmetro ModelCacheSetting
em Disabled
para casos de uso que não se beneficiam do armazenamento em cache do modelo. Por exemplo, quando um grande número de modelos precisa ser servido a partir do endpoint, mas cada modelo é invocado apenas uma vez (ou com pouca frequência). Para esses casos de uso, definir o valor do ModelCacheSetting
parâmetro para Disabled
permitir maiores transações por segundo (TPS) para invoke_endpoint
solicitações em comparação com o modo de cache padrão. Mais alto TPS nesses casos de uso é porque SageMaker ocorre o seguinte após a invoke_endpoint
solicitação:
-
Descarrega assincronamente o modelo da memória e o exclui do disco imediatamente após ser invocado.
-
Fornece maior simultaneidade para baixar e carregar modelos no contêiner de inferência. CPUTanto GPU para endpoints quanto para endpoints protegidos, a simultaneidade é um fator do número da instância vCPUs do contêiner.
Para obter diretrizes sobre como escolher um tipo de instância de SageMaker ML para um endpoint multimodelo, consulte. Recomendações de instâncias para implantações de endpoint de vários modelos