Beginnen Sie mit Modellevaluierungen

Ein großes Sprachmodell (LLM) ist ein Modell für maschinelles Lernen, mit dem Text in natürlicher Sprache analysiert und generiert werden kann. Wenn Sie ein auswerten möchtenLLM, stehen SageMaker Ihnen die folgenden drei Optionen zur Verfügung:

Richten Sie mithilfe von Studio manuelle Bewertungen für eine menschliche Belegschaft ein.
Evaluieren Sie Ihr Modell mit einem Algorithmus in Studio.
Evaluieren Sie Ihr Modell mithilfe der fmeval Bibliothek automatisch mit einem benutzerdefinierten Workflow.

Sie können entweder einen Algorithmus verwenden, um Ihr Basismodell automatisch zu bewerten, oder ein menschliches Arbeitsteam bitten, die Antworten der Modelle zu bewerten.

Menschliche Arbeitsteams können bis zu zwei Modelle gleichzeitig bewerten und vergleichen, indem sie Kennzahlen verwenden, die angeben, dass eine Antwort einer anderen bevorzugt wird. Der Arbeitsablauf, die Kennzahlen und die Anweisungen für eine menschliche Bewertung können auf einen bestimmten Anwendungsfall zugeschnitten werden. Menschen können auch eine detailliertere Bewertung vornehmen als eine algorithmische Bewertung.

Sie können auch einen Algorithmus verwenden, um Ihre Ergebnisse LLM anhand von Benchmarks zu bewerten, um Ihre Modellantworten in Studio schnell zu bewerten. Studio bietet einen geführten Arbeitsablauf zur Bewertung der Antworten aus einem JumpStart Modell anhand vordefinierter Metriken. Diese Metriken sind spezifisch für generative KI-Aufgaben. Dieser geführte Ablauf verwendet integrierte oder benutzerdefinierte Datensätze zur Bewertung IhrerLLM.

Alternativ können Sie die fmeval Bibliothek verwenden, um mithilfe von automatischen Auswertungen einen individuelleren Workflow zu erstellen, als dies in Studio verfügbar ist. Die Verwendung von Python Mit dem Code und der fmeval Bibliothek können Sie jede textbasierte Version auswertenLLM, auch Modelle, die außerhalb von JumpStart erstellt wurden.

Die folgenden Themen bieten einen Überblick über die Evaluierungen von Foundation-Modellen, eine Zusammenfassung der Workflows zur automatischen und manuellen Foundation Model Evaluation (FMEval), deren Ausführung und die Anzeige eines Analyseberichts mit Ihren Ergebnissen. Das Thema automatische Evaluierung zeigt, wie Sie sowohl eine Start- als auch eine benutzerdefinierte Evaluierung konfigurieren und ausführen.

Topics

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Modellbewertungen

Schnelle Datensätze und Bewertungsdimensionen