Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Création d'un poste d'évaluation modèle utilisant un LLM comme juge

Mode de mise au point
Création d'un poste d'évaluation modèle utilisant un LLM comme juge - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Une tâche d'évaluation de modèle qui utilise un modèle de juge vous permet d'utiliser un modèle LLM de base pour évaluer la réponse de votre modèle, puis expliquer pourquoi une paire prompte et réponse a reçu le score. Les scores et les explications sont disponibles dans le bulletin. Dans le bulletin, vous pouvez voir un histogramme qui indique le nombre de fois qu'une réponse a obtenu un certain score, ainsi que des explications du score pour les cinq premières demandes trouvées dans vos ensembles de données. Les réponses complètes sont disponibles dans le compartiment Amazon S3 qui vous est propre lorsque vous créez la tâche d'évaluation du modèle.

Ce type d'évaluation de modèle nécessite deux modèles différents : un modèle générateur et un modèle évaluateur. Le modèle de générateur répond aux instructions de votre jeu de données. Après avoir répondu, le modèle d'évaluateur note la réponse en fonction des mesures que vous sélectionnez. Chaque métrique donne un score différent et utilise une invite différente pour effectuer le score. Tous les scores sont normalisés lorsqu'ils sont indiqués dans la sortie. Pour voir les instructions utilisées pour la notation, voirGuides de l'évaluateur basées sur un modèle utilisé dans un travail d'évaluation basé sur un modèle basé sur un juge.

Modèles d'évaluateurs pris en charge
  • Vous devez avoir accès à au moins l'un des modèles de fondation Amazon Bedrock suivants. Voici les modèles de juges disponibles. Pour en savoir plus sur l'accès aux modèles et la disponibilité des régions, consultezAccédez aux modèles de fondations Amazon Bedrock.

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.