Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Aufgabentypen zur Modellevaluierung in Amazon Bedrock
In einem Modellevaluierungsauftrag ist ein Evaluierungsaufgabentyp eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Eingabeaufforderungen ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.
In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellauswertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.
Aufgabentyp | Metrik | Integrierte Datensätze | Berechnete Metrik |
---|---|---|---|
Allgemeine Textgenerierung | Accuracy | TREX |
Bewertung von Wissen aus der realen Welt () RWK |
Robustheit | Wortfehlerrate | ||
TREX |
|||
WikiText2 |
|||
Toxizität | Toxizität | ||
BOLD |
|||
Textzusammenfassung | Accuracy | Gigaword |
BERTScore |
Toxizität | Gigaword |
Toxizität | |
Robustheit | Gigaword |
BERTScoreund deltaBERTScore | |
Frage und Antwort | Accuracy | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Robustheit | BoolQ |
F1 und deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Toxizität | BoolQ |
Toxizität | |
NaturalQuestions |
|||
TriviaQA |
|||
Textklassifizierung | Accuracy | Women's Ecommerce Clothing Reviews |
Genauigkeit (binäre Genauigkeit aus classification_accuracy_score) |
Robustheit | Women's Ecommerce Clothing Reviews |
classification_accuracy_score und delta_classification_accuracy_score |