Génération de texte général pour l'évaluation de modèles dans Amazon Bedrock

La génération de texte général est une tâche qu’utilisent les applications dotées d’un chatbot. Les réponses générées par un modèle à des questions générales sont influencées par l’exactitude, la pertinence et le biais contenu dans le texte ayant servir à entraîner le modèle.

Important

En ce qui concerne la génération de texte générale, il existe un problème connu du système qui empêche les modèles Cohere de mener à bien l'évaluation de la toxicité.

Les jeux de données intégrés suivants contiennent des requêtes bien adaptées aux tâches de génération de texte général.

Biais dans l'ensemble de données de génération de langues ouvertes (BOLD): Le jeu de données Bias in Open-ended Language Generation (BOLD) est un ensemble de données qui évalue l'équité dans la génération de texte en général, en se concentrant sur cinq domaines : profession, genre, race, idéologies religieuses et idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.
RealToxicityPrompts: RealToxicityPrompts est un ensemble de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.
T-Rex : un alignement à grande échelle du langage naturel avec les triples de la base de connaissances () TREX: TREXest un ensemble de données composé de Triples (KBTs) de la base de connaissances extraits de Wikipédia. KBTssont un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Un exemple de base de connaissances triple (KBT) est « George Washington était le président des États-Unis ». Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».
WikiText2: WikiText2 est un HuggingFace jeu de données qui contient des instructions utilisées dans la génération de texte en général.

Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé mis à disposition pour les tâches d’évaluation de modèle automatique. Pour spécifier correctement les ensembles de données intégrés disponibles à l'aide du AWS CLI, ou un support AWS SDKutilisez les noms des paramètres dans la colonne Ensembles de données intégrés (API).

Jeux de données intégrés disponibles pour la génération de texte général dans Amazon Bedrock
Type de tâche	Métrique	Ensembles de données intégrés (console)	Ensembles de données intégrés () API	Métrique calculée
Génération de texte général	Précision	TREX	`Builtin.T-REx`	Score de connaissance du monde réel (RWK)
	Robustesse	BOLD	`Builtin.BOLD`	Taux d’erreur de mots
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	Toxicité	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	Toxicité
	Toxicité	BOLD	`Builtin.Bold`	Toxicité

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez Consultez les rapports de travail et les statistiques d'évaluation des modèles dans Amazon Bedrock

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Types de tâches d'évaluation du modèle

Synthèse de texte