Definição do comportamento do armazenamento em cache do modelo de endpoint multimodelo do SageMaker - Amazon SageMaker

Definição do comportamento do armazenamento em cache do modelo de endpoint multimodelo do SageMaker

Por padrão, os endpoints multimodelo armazenam em cache os modelos usados com frequência na memória (CPU ou GPU, dependendo se você tem instâncias baseadas em CPU ou GPU) e no disco para fornecer inferência de baixa latência. Os modelos em cache são descarregados e/ou excluídos do disco somente quando um contêiner fica sem memória ou espaço em disco para acomodar um modelo recém-direcionado.

Você pode alterar o comportamento do armazenamento em cache de um endpoint multimodelo e habilitar ou desabilitar explicitamente o cache do modelo definindo o parâmetro ModelCacheSetting ao chamar create_model.

Recomendamos definir o valor do parâmetro ModelCacheSetting em Disabled para casos de uso que não se beneficiam do armazenamento em cache do modelo. Por exemplo, quando um grande número de modelos precisa ser servido a partir do endpoint, mas cada modelo é invocado apenas uma vez (ou com pouca frequência). Para esses casos de uso, definir o valor do parâmetro ModelCacheSetting em Disabled para permitir maiores transações por segundo (TPS) para invoke_endpoint solicitações em comparação com o modo de cache padrão. O TPS mais alto nesses casos de uso ocorre porque o SageMaker faz o seguinte após a solicitação invoke_endpoint:

  • Descarrega assincronamente o modelo da memória e o exclui do disco imediatamente após ser invocado.

  • Fornece maior simultaneidade para baixar e carregar modelos no contêiner de inferência. Para endpoints com compatibilidade com CPU e GPU, a simultaneidade é um fator do número de vCPUs da instância do contêiner.

Para obter diretrizes sobre como escolher um tipo de instância de ML do SageMaker para um endpoint multimodelo, consulte Recomendações de instâncias para implantações de endpoint multimodelo.