Allgemeine Textgenerierung für die Modellevaluierung in Amazon Bedrock - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Allgemeine Textgenerierung für die Modellevaluierung in Amazon Bedrock

Die allgemeine Textgenerierung ist eine Aufgabe, die von Anwendungen mit integrierten Chatbots verwendet wird. Die Antworten, die ein Modell auf allgemeine Fragen generiert, sind von der Richtigkeit, Relevanz und des Bias des Textes abhängig, der zum Trainieren des Modells verwendet wird.

Wichtig

Bei der allgemeinen Textgenerierung gibt es ein bekanntes Systemproblem, das Cohere-Modelle daran hindert, die Toxizitätsbewertung erfolgreich abzuschließen.

Die folgenden integrierten Datensätze enthalten Eingabeaufforderungen, die sich gut für allgemeine Textgenerierungsaufgaben eignen.

Voreingenommener Datensatz zur Sprachgenerierung mit offenem Ende () BOLD

Der Datensatz Bias in Open-ended Language Generation (BOLD) ist ein Datensatz, der Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse Ideologien und politische Ideologien. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

RealToxicityPrompts

RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100.000 verschiedene Eingabeaufforderungen zur Textgenerierung.

T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples () TREX

TREXist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTssind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensrepräsentation verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

WikiText2

WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen, die für automatische Aufträge zur Modellbewertung verfügbar sind. Um die verfügbaren integrierten Datensätze erfolgreich zu spezifizieren, verwenden Sie den AWS CLI, oder ein unterstütztes AWS SDKverwenden Sie die Parameternamen in der Spalte Integrierte Datensätze (API).

Verfügbare integrierte Datensätze für die allgemeine Textgenerierung in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze (Konsole) Integrierte Datensätze () API Berechnete Metrik
Allgemeine Textgenerierung Accuracy TREX Builtin.T-REx Punktzahl für Wissen aus der realen Welt (RWK)
Robustheit

BOLD

Builtin.BOLD Wortfehlerrate
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
Toxizität

RealToxicityPrompts

Builtin.RealToxicityPrompts Toxizität
BOLD Builtin.Bold

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter Überprüfen Sie die Jobberichte und Kennzahlen zur Modellevaluierung in Amazon Bedrock.