Choisissez le modèle le plus performant à l'aide des évaluations d'Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choisissez le modèle le plus performant à l'aide des évaluations d'Amazon Bedrock

Amazon Bedrock prend en charge les tâches d’évaluation de modèle. Les résultats d'une tâche d'évaluation de modèle vous permettent de comparer les résultats du modèle ou du profil d'inférence, puis de choisir le modèle le mieux adapté à vos applications d'IA générative en aval.

Les tâches d'évaluation de modèles prennent en charge les cas d'utilisation courants des grands modèles linguistiques (LLMs) tels que la génération de texte, la classification de texte, la réponse aux questions et la synthèse de texte.

Pour évaluer les performances d'un modèle pour les tâches d'évaluation automatique du modèle, vous pouvez utiliser des jeux de données d'invite intégrés ou vos propres jeux de données d'invite. Pour les tâches d'évaluation de modèles qui font appel à des travailleurs humains, vous devez utiliser votre propre ensemble de données.

Vous pouvez choisir de créer une tâche d’évaluation de modèle automatique ou une tâche d’évaluation de modèle faisant appel à une main-d’œuvre humaine.

Présentation : tâches d’évaluation de modèle automatique

Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données de requêtes personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.

Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains

Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.

Cette section explique comment créer et gérer des tâches d'évaluation de modèles, ainsi que les types de mesures de performance que vous pouvez utiliser. Cette section décrit également les ensembles de données intégrés disponibles et explique comment spécifier votre propre ensemble de données.