La documentation du conteneur d'inférence de grands modèles (LMI)

La documentation du conteneur LMI (Large Model Inference) est disponible sur le site de documentation de la bibliothèque Deep Java.

La documentation est destinée aux développeurs, aux scientifiques des données et aux ingénieurs en apprentissage automatique qui ont besoin de déployer et d'optimiser de grands modèles de langage (LLMs) sur Amazon SageMaker AI. Il vous aide à utiliser les conteneurs LMI, qui sont des conteneurs Docker spécialisés pour l'inférence LLM, fournis par. AWS Il fournit une vue d'ensemble, des guides de déploiement, des guides de l'utilisateur pour les bibliothèques d'inférence prises en charge et des didacticiels avancés.

En utilisant la documentation du conteneur LMI, vous pouvez :

Comprendre les composants et l'architecture des conteneurs LMI
Découvrez comment sélectionner le type d'instance et le backend adaptés à votre cas d'utilisation
Configuration et déploiement LLMs sur l' SageMaker IA à l'aide de conteneurs LMI
Optimisez les performances en utilisant des fonctionnalités telles que la quantification, le parallélisme des tenseurs et le traitement par lots en continu
Comparez et ajustez vos points de terminaison d' SageMaker IA pour un débit et une latence optimaux

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Parallélisme des modèles et inférence de modèles de grande taille

SageMaker Paramètres des points de terminaison AI pour LMI