Faktenwissen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Faktenwissen

Bewertet die Fähigkeit von Sprachmodellen, Fakten über die reale Welt zu reproduzieren. Foundation Model Evaluations (FMEval) kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem RExT-Open-Source-Datensatz basiert.

Amazon SageMaker AI unterstützt die Durchführung einer Bewertung von Faktenwissen in Amazon SageMaker Studio oder mithilfe der fmeval Bibliothek.

  • Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardeinstellungen, um die Modellleistung schnell zu bewerten.

  • Ausführen von Evaluierungen mithilfe der fmeval Bibliothek: Evaluierungsjobs, die mit der fmeval Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.

Unterstützter Aufgabentyp

Die Bewertung von Faktenwissen wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Benutzer können auch ihren eigenen Datensatz mitbringen. Standardmäßig wählt SageMaker KI 100 zufällige Datenpunkte aus dem Datensatz aus, um das Faktenwissen zu bewerten. Bei Verwendung der fmeval Bibliothek kann dies angepasst werden, indem der num_records Parameter an die Methode übergeben wird. evaluate Hinweise zur Anpassung der Bewertung von Faktenwissen mithilfe der fmeval Bibliothek finden Sie unter. Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an

Aufgabentyp Integrierte Datensätze Hinweise
Generierung mit offenem Ende T- REx Dieser Datensatz unterstützt nur die englische Sprache. Um diese Auswertung in einer anderen Sprache durchzuführen, müssen Sie Ihren eigenen Datensatz hochladen.

Berechnete Werte

Bei dieser Auswertung wird der Durchschnittswert einer einzelnen binären Metrik für jede Eingabeaufforderung im Datensatz ermittelt. Hinweise zur Struktur der Eingabeaufforderung, die für die Auswertung erforderlich ist, finden Sie unterErstellen Sie einen automatischen Modellevaluierungsjob in Studio. Für jede Aufforderung entsprechen die Werte den folgenden Werten:

  • 0: Die erwartete Antwort in Kleinbuchstaben ist nicht Teil der Modellantwort.

  • 1: Die erwartete Antwort in Kleinbuchstaben ist Teil der Modellantwort. Einige Paare aus Subjekt und Prädikat können mehr als eine erwartete Antwort haben. In diesem Fall wird jede der Antworten als richtig angesehen.

Beispiel

  • Aufforderung: Berlin is the capital of 

  • Erwartete Antwort:Germany

  • Generierter Text: Germany, and is also its most populous city

  • Bewertung des Faktenwissens: 1