Que sont les évaluations des modèles de base ? - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Que sont les évaluations des modèles de base ?

FMEvalpeut vous aider à quantifier les risques du modèle, tels que le contenu inexact, toxique ou biaisé. L'évaluation de votre système vous LLM aide à vous conformer aux directives internationales relatives à l'IA générative responsable, telles que la norme ISO42001 sur le système de gestion de l'IA et le cadre de gestion des risques liés à l'NISTIA.

Les sections suivantes donnent un aperçu général des méthodes prises en charge pour créer des évaluations de modèles, visualiser les résultats d'une tâche d'évaluation de modèle et analyser les résultats.

Tâches d’évaluation de modèle

Dans une tâche d’évaluation de modèle, une tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos requêtes. Vous pouvez choisir un type de tâche par tâche d'évaluation du modèle

Types de tâches pris en charge dans les tâches d'évaluation de modèles
  • Génération ouverte — La production de réponses humaines naturelles à un texte qui n'a pas de structure prédéfinie.

  • Résumé du texte — Génération d'un résumé concis et condensé tout en conservant le sens et les informations clés contenus dans un texte plus grand.

  • Réponse aux questions — Génération d'une réponse pertinente et précise à un prompt.

  • Classification — Attribuer une catégorie, telle qu'une étiquette ou une note au texte, en fonction de son contenu.

  • Personnalisé : vous permet de définir des dimensions d'évaluation personnalisées pour votre tâche d'évaluation de modèle.

Chaque type de tâche est associé à des métriques spécifiques que vous pouvez utiliser dans des tâches d'évaluation de modèles automatisés. Pour en savoir plus sur les métriques associées aux tâches d'évaluation automatique de modèles et aux tâches d'évaluation de modèles faisant appel à des travailleurs humains, voirUtilisation de jeux de données rapides et de dimensions d'évaluation disponibles dans les tâches d'évaluation de modèles .

Mise à jour des paramètres d'inférence

Les paramètres d'inférence permettent d'influencer le résultat d'un modèle sans avoir à le réentraîner ou à le peaufiner.

Dans le cadre d'une tâche d'évaluation automatique du modèle, vous pouvez modifier la température, le P supérieur et le nombre maximum de nouveaux jetons du modèle.

Température

Modifie le caractère aléatoire des réponses du modèle. Abaissez la température par défaut pour réduire le caractère aléatoire, et augmentez-la pour en avoir plus.

Top P

Lors de l'inférence, le modèle génère du texte et choisit le mot suivant dans une liste de mots. La mise à jour du Top P modifie le nombre de mots de cette liste en fonction d'un pourcentage. La diminution du Top P permet d'obtenir des échantillons plus déterministes, tandis qu'une valeur plus élevée permettra plus de variabilité et de créativité dans le texte généré.

Nombre maximum de nouveaux jetons

Modifie la durée de réponse que le modèle peut fournir.

Vous pouvez mettre à jour les paramètres d'inférence dans Studio après avoir ajouté le modèle à votre tâche d'évaluation de modèle.

Tâches d’évaluation de modèle automatique

Les tâches d'évaluation automatique des modèles utilisent des indicateurs basés sur des points de référence pour mesurer les réponses toxiques, nocives ou médiocres à vos clients. Les réponses du modèle sont notées à l'aide de jeux de données intégrés spécifiques à la tâche ou vous pouvez spécifier votre propre jeu de données d'invite personnalisé.

Pour créer une tâche d'évaluation automatique du modèle, vous pouvez utiliser Studio ou la fmevalbibliothèque. Les tâches d'évaluation automatique des modèles prennent en charge l'utilisation d'un seul modèle. Dans Studio, vous pouvez utiliser un JumpStart modèle ou un JumpStart modèle que vous avez précédemment déployé sur un point de terminaison.

Vous pouvez également déployer la fmeval bibliothèque dans votre propre base de code et personnaliser le travail d'évaluation du modèle en fonction de vos propres cas d'utilisation.

Pour mieux comprendre vos résultats, utilisez le rapport généré. Le rapport inclut des visualisations et des exemples. Vous pouvez également voir les résultats enregistrés dans le compartiment Amazon S3 spécifié lors de la création de la tâche. Pour en savoir plus sur la structure des résultats, voirComprendre les résultats d'une tâche d'évaluation automatique.

Pour utiliser un modèle qui n'est pas accessible au public dans JumpStart , vous devez utiliser la fmeval bibliothèque pour exécuter la tâche d'évaluation automatique du modèle. Pour obtenir la liste des JumpStart modèles, voirModèles de fondation disponibles.

Modèles d’invites

Pour garantir que le JumpStart modèle que vous sélectionnez fonctionne correctement par rapport à toutes les instructions, SageMaker Clarify augmente automatiquement vos invites de saisie dans le format qui convient le mieux au modèle et aux dimensions d'évaluation que vous sélectionnez. Pour voir le modèle d'invite par défaut fourni par Clarify, choisissez Modèle d'invite dans la fiche correspondant à la dimension d'évaluation. Si vous sélectionnez, par exemple, le type de tâche Synthèse de texte dans l'interface utilisateur, Clarify affiche par défaut une carte pour chacune des dimensions d'évaluation associées, en l'occurrence la précision, la toxicité et la robustesse sémantique. Dans ces cartes, vous pouvez configurer les ensembles de données et les modèles d'invite que Clarify utilise pour mesurer cette dimension d'évaluation. Vous pouvez également supprimer les dimensions que vous ne souhaitez pas utiliser.

Modèles d'invite par défaut

Clarify fournit une sélection de jeux de données que vous pouvez utiliser pour mesurer chaque dimension d'évaluation. Vous pouvez choisir d'utiliser un ou plusieurs de ces ensembles de données, ou vous pouvez fournir votre propre ensemble de données personnalisé. Si vous utilisez les ensembles de données fournis par Clarify, vous pouvez également utiliser les modèles d'invite insérés par défaut par Clarify. Nous avons dérivé ces instructions par défaut en analysant le format de réponse dans chaque ensemble de données et en déterminant les augmentations de requêtes nécessaires pour obtenir le même format de réponse.

Le modèle d'invite fourni par Clarify dépend également du modèle que vous sélectionnez. Vous pouvez choisir un modèle affiné pour vous attendre à recevoir des instructions à des emplacements spécifiques de l'invite. Par exemple, en choisissant le modèle meta-textgenerationneuron-llama-2-7b, le type de tâche Text Summarization et le Gigaword ensemble de données, affiche un modèle d'invite par défaut comme suit :

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

En revanche, le choix du modèle de chat lama meta-textgenerationneuron-llama-2-7b-f affiche le modèle d'invite par défaut suivant :

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Modèles d'invite personnalisés

Dans la boîte de dialogue du modèle d'invite, vous pouvez activer ou désactiver la prise en charge automatique des modèles d'invite fournie par SageMaker Clarify. Si vous désactivez la création automatique de modèles d'invite, Clarify fournit l'invite par défaut (sous forme de référence pour tous les ensembles de données d'une même dimension d'évaluation) que vous pouvez modifier. Par exemple, si le modèle d'invite par défaut inclut l'instruction Résumer ce qui suit en une phrase, vous pouvez le modifier pour résumer ce qui suit en moins de 100 mots ou toute autre instruction que vous souhaitez utiliser.

De même, si vous modifiez une invite pour une dimension d'évaluation, la même invite est appliquée à tous les ensembles de données utilisant cette même dimension. Donc, si vous choisissez d'appliquer l'invite, résumez le texte suivant en 17 phrases à l'ensemble de données Gigaword pour mesurer la toxicité, cette même instruction est utilisée pour l'ensemble de données Government report pour mesurer la toxicité. Si vous souhaitez utiliser une invite différente pour un ensemble de données différent (en utilisant le même type de tâche et la même dimension d'évaluation), vous pouvez utiliser les packages python fournis parFMEval. Pour plus de détails, consultez Personnalisez votre flux de travail à l'aide de la fmeval bibliothèque.

Exemple de modèle d'invite mis à jour à l'aide du modèle d'invite

Imaginez un scénario simple dans lequel vous disposez d'un jeu de données simple composé de deux instructions seulement, et vous souhaitez les évaluer à l'aide meta-textgenerationneuron-llama-2-7b-f de.

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Comme vos invites sont des paires de questions et de réponses, vous choisissez le type de tâche de réponse aux questions (Q&R).

En choisissant le modèle Prompt dans Studio, vous pouvez voir comment SageMaker Clarify formatera vos invites en fonction des exigences du meta-textgenerationneuron-llama-2-7b-f JumpStart modèle.

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Pour ce modèle, SageMaker Clarify complétera vos instructions pour qu'elles contiennent le format d'invite correct en ajoutant les <<SYS>> balises [INST] et. Cela augmentera également votre demande initiale en ajoutant des éléments Respond to the following question. Valid answers are "True" or "False". pour aider le modèle à mieux répondre.

Le texte fourni par SageMaker Clarify n'est peut-être pas adapté à votre cas d'utilisation. Pour désactiver les modèles d'invite par défaut, faites glisser le bouton Modèles d'invite par défaut du jeu de données sur Désactivé.

Vous pouvez modifier le modèle d'invite pour l'aligner sur votre cas d'utilisation. Par exemple, vous pouvez demander une réponse courte au lieu d'un format de réponse vrai/faux, comme indiqué dans la ligne suivante :

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Désormais, tous les ensembles de données d'invite intégrés ou personnalisés sous la dimension d'évaluation spécifiée utiliseront le modèle d'invite que vous avez spécifié.

Emplois d'évaluation de modèles faisant appel à des travailleurs humains

Vous pouvez également faire appel à des travailleurs humains pour évaluer manuellement les réponses de votre modèle pour des dimensions plus subjectives, telles que l'utilité ou le style. Pour créer une tâche d'évaluation de modèle faisant appel à des travailleurs humains, vous devez utiliser Studio.

Dans un travail d'évaluation de modèles faisant appel à des travailleurs humains, vous pouvez comparer les réponses de deux JumpStart modèles au maximum. Facultativement, vous pouvez également spécifier des réponses provenant de modèles extérieurs à AWS. Toutes les tâches d'évaluation de modèles qui font appel à des travailleurs humains nécessitent que vous créiez un jeu de données d'invite personnalisé et que vous le stockiez dans Amazon S3. Pour en savoir plus sur la création de données d'invite personnalisées, voirCréation d’une tâche d’évaluation de modèle faisant appel à des travailleurs humains.

Dans Studio, vous pouvez définir les critères que votre personnel utilise pour évaluer les réponses des modèles. Vous pouvez également documenter les instructions d'évaluation à l'aide d'un modèle disponible dans Studio. En outre, vous pouvez créer une équipe de travail dans Studio. L'équipe de travail est composée des personnes que vous souhaitez voir participer à l'évaluation de votre modèle.