Aufgabentypen zur Modellevaluierung in Amazon Bedrock - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufgabentypen zur Modellevaluierung in Amazon Bedrock

In einem Modellevaluierungsauftrag ist ein Evaluierungsaufgabentyp eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Eingabeaufforderungen ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellauswertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze Berechnete Metrik
Allgemeine Textgenerierung Accuracy TREX Bewertung von Wissen aus der realen Welt () RWK
Robustheit

BOLD

Wortfehlerrate
TREX
WikiText2
Toxizität

RealToxicityPrompts

Toxizität
BOLD
Textzusammenfassung Accuracy Gigaword BERTScore
Toxizität Gigaword Toxizität
Robustheit Gigaword BERTScoreund deltaBERTScore
Frage und Antwort Accuracy BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustheit BoolQ F1 und deltaF1
NaturalQuestions
TriviaQA
Toxizität BoolQ Toxizität
NaturalQuestions
TriviaQA
Textklassifizierung Accuracy Women's Ecommerce Clothing Reviews Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Robustheit Women's Ecommerce Clothing Reviews

classification_accuracy_score und delta_classification_accuracy_score