Définir le comportement de mise en cache SageMaker du modèle de point de terminaison multimodèle - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Définir le comportement de mise en cache SageMaker du modèle de point de terminaison multimodèle

Par défaut, les terminaux multimodèles mettent en cache les modèles fréquemment utilisés en mémoire (CPUouGPU, selon que vous possédez CPU ou GPU sauvegardez des instances) et sur le disque afin de fournir une inférence à faible latence. Les modèles mis en cache sont déchargés et/ou supprimés du disque uniquement lorsqu'un conteneur manque de mémoire ou d'espace disque pour s'adapter à un modèle nouvellement ciblé.

Vous pouvez modifier le comportement de mise en cache d'un point de terminaison multimodèles et activer ou désactiver explicitement la mise en cache de modèle en définissant le paramètre ModelCacheSetting lorsque vous appelez create_model.

Nous vous recommandons de définir la valeur du paramètre ModelCacheSetting sur Disabled pour les cas d'utilisation qui ne bénéficient pas de la mise en cache des modèles. Par exemple, lorsqu'un grand nombre de modèles doivent être servis à partir du point de terminaison, mais que chaque modèle n'est appelé qu'une seule fois (ou très rarement). Dans de tels cas d'utilisation, définissez la valeur du ModelCacheSetting paramètre pour Disabled autoriser des transactions par seconde (TPS) plus élevées pour les invoke_endpoint demandes par rapport au mode de mise en cache par défaut. TPSDans ces cas d'utilisation, le taux le plus élevé est dû au SageMaker fait que ce qui suit est effectué après la invoke_endpoint demande :

  • Décharge de manière asynchrone le modèle de la mémoire et le supprime du disque immédiatement après qu'il a été appelé.

  • Propose une concurrence plus élevée pour le téléchargement et le chargement de modèles dans le conteneur d'inférence. Pour les points de GPU terminaison protégés CPU et pour les points de terminaison, la simultanéité est un facteur du nombre de l' vCPUs instance de conteneur.

Pour obtenir des instructions sur le choix d'un type d'instance SageMaker ML pour un point de terminaison multimodèle, consultezRecommandations d'instance pour les déploiements de points de terminaison multi-modèles.