Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Commencez avec les évaluations de modèles
Un grand modèle de langage (LLM) est un modèle d'apprentissage automatique capable d'analyser et de générer du texte en langage naturel. Si vous souhaitez évaluer unLLM, SageMaker propose les trois options suivantes que vous pouvez choisir :
-
Configurez des évaluations manuelles pour un personnel humain à l'aide de Studio.
-
Évaluez votre modèle à l'aide d'un algorithme utilisant Studio.
-
Évaluez automatiquement votre modèle à l'aide d'un flux de travail personnalisé à l'aide de la
fmeval
bibliothèque.
Vous pouvez soit utiliser un algorithme pour évaluer automatiquement votre modèle de base, soit demander à une équipe de travail humaine d'évaluer les réponses des modèles.
Les équipes de travail humain peuvent évaluer et comparer jusqu'à deux modèles simultanément à l'aide de métriques indiquant la préférence pour une réponse par rapport à une autre. Le flux de travail, les métriques et les instructions pour une évaluation humaine peuvent être adaptés à un cas d'utilisation particulier. Les humains peuvent également fournir une évaluation plus fine qu'une évaluation algorithmique.
Vous pouvez également utiliser un algorithme pour évaluer votre LLM utilisation de benchmarks afin d'évaluer rapidement les réponses de votre modèle dans Studio. Studio fournit un flux de travail guidé pour évaluer les réponses d'un JumpStart modèle à l'aide de métriques prédéfinies. Ces indicateurs sont spécifiques aux tâches génératives d'IA. Ce flux guidé utilise des ensembles de données intégrés ou personnalisés pour évaluer votreLLM.
Vous pouvez également utiliser la fmeval
bibliothèque pour créer un flux de travail plus personnalisé à l'aide d'évaluations automatiques que ce qui est disponible dans Studio. Utilisation Python code et fmeval
bibliothèque, vous pouvez évaluer n'importe quel texte basé sur du texteLLM, y compris les modèles créés en dehors de. JumpStart
Les rubriques suivantes fournissent une vue d'ensemble des évaluations du modèle de base, un résumé des flux de travail automatiques et humains de l'évaluation du modèle de fondation (FMEval), comment les exécuter et comment consulter un rapport d'analyse de vos résultats. La rubrique sur l'évaluation automatique explique comment configurer et exécuter à la fois une évaluation initiale et une évaluation personnalisée.
Rubriques