Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Faktenwissen
Bewertet die Fähigkeit von Sprachmodellen, Fakten über die reale Welt zu reproduzieren. Foundation Model Evaluations (FMEval) kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem RExT-Open-Source-Datensatz
Amazon SageMaker AI unterstützt die Durchführung einer Bewertung von Faktenwissen in Amazon SageMaker Studio oder mithilfe der fmeval
Bibliothek.
-
Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardeinstellungen, um die Modellleistung schnell zu bewerten.
-
Ausführen von Evaluierungen mithilfe der
fmeval
Bibliothek: Evaluierungsjobs, die mit derfmeval
Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.
Unterstützter Aufgabentyp
Die Bewertung von Faktenwissen wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Benutzer können auch ihren eigenen Datensatz mitbringen. Standardmäßig wählt SageMaker KI 100 zufällige Datenpunkte aus dem Datensatz aus, um das Faktenwissen zu bewerten. Bei Verwendung der fmeval
Bibliothek kann dies angepasst werden, indem der num_records
Parameter an die Methode übergeben wird. evaluate
Hinweise zur Anpassung der Bewertung von Faktenwissen mithilfe der fmeval
Bibliothek finden Sie unter. Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an
Aufgabentyp | Integrierte Datensätze | Hinweise |
---|---|---|
Generierung mit offenem Ende | T- REx |
Dieser Datensatz unterstützt nur die englische Sprache. Um diese Auswertung in einer anderen Sprache durchzuführen, müssen Sie Ihren eigenen Datensatz hochladen. |
Berechnete Werte
Bei dieser Auswertung wird der Durchschnittswert einer einzelnen binären Metrik für jede Eingabeaufforderung im Datensatz ermittelt. Hinweise zur Struktur der Eingabeaufforderung, die für die Auswertung erforderlich ist, finden Sie unterErstellen Sie einen automatischen Modellevaluierungsjob in Studio. Für jede Aufforderung entsprechen die Werte den folgenden Werten:
-
0
: Die erwartete Antwort in Kleinbuchstaben ist nicht Teil der Modellantwort. -
1
: Die erwartete Antwort in Kleinbuchstaben ist Teil der Modellantwort. Einige Paare aus Subjekt und Prädikat können mehr als eine erwartete Antwort haben. In diesem Fall wird jede der Antworten als richtig angesehen.
Beispiel
-
Aufforderung:
Berlin is the capital of
-
Erwartete Antwort:
Germany
. -
Generierter Text:
Germany, and is also its most populous city
-
Bewertung des Faktenwissens: 1