Unterstützter Aufgabentyp Berechnete Werte Beispiel

Faktenwissen

Bewertet die Fähigkeit von Sprachmodellen, Fakten über die reale Welt zu reproduzieren. Foundation Model Evaluations (FMEval) kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem RExT-Open-Source-Datensatz basiert.

Amazon SageMaker AI unterstützt die Durchführung einer Bewertung von Faktenwissen in Amazon SageMaker Studio oder mithilfe der fmeval Bibliothek.

Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardeinstellungen, um die Modellleistung schnell zu bewerten.
Ausführen von Evaluierungen mithilfe der fmeval Bibliothek: Evaluierungsjobs, die mit der fmeval Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.

Unterstützter Aufgabentyp

Die Bewertung von Faktenwissen wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Benutzer können auch ihren eigenen Datensatz mitbringen. Standardmäßig wählt SageMaker KI 100 zufällige Datenpunkte aus dem Datensatz aus, um das Faktenwissen zu bewerten. Bei Verwendung der fmeval Bibliothek kann dies angepasst werden, indem der num_records Parameter an die Methode übergeben wird. evaluate Hinweise zur Anpassung der Bewertung von Faktenwissen mithilfe der fmeval Bibliothek finden Sie unter. Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an

Aufgabentyp	Integrierte Datensätze	Hinweise
Generierung mit offenem Ende	T- REx	Dieser Datensatz unterstützt nur die englische Sprache. Um diese Auswertung in einer anderen Sprache durchzuführen, müssen Sie Ihren eigenen Datensatz hochladen.

Berechnete Werte

Bei dieser Auswertung wird der Durchschnittswert einer einzelnen binären Metrik für jede Eingabeaufforderung im Datensatz ermittelt. Hinweise zur Struktur der Eingabeaufforderung, die für die Auswertung erforderlich ist, finden Sie unterErstellen Sie einen automatischen Modellevaluierungsjob in Studio. Für jede Aufforderung entsprechen die Werte den folgenden Werten:

0: Die erwartete Antwort in Kleinbuchstaben ist nicht Teil der Modellantwort.
1: Die erwartete Antwort in Kleinbuchstaben ist Teil der Modellantwort. Einige Paare aus Subjekt und Prädikat können mehr als eine erwartete Antwort haben. In diesem Fall wird jede der Antworten als richtig angesehen.

Beispiel

Aufforderung: Berlin is the capital of
Erwartete Antwort:Germany.
Generierter Text: Germany, and is also its most populous city
Bewertung des Faktenwissens: 1

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Accuracy

Prompte Stereotypisierung