Was sind Evaluationen von Fundamentmodellen? - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Was sind Evaluationen von Fundamentmodellen?

FMEvalkann Ihnen helfen, Modellrisiken wie ungenaue, toxische oder verzerrte Inhalte zu quantifizieren. Ihre Bewertung LLM hilft Ihnen dabei, internationale Richtlinien für verantwortungsvolle generative KI einzuhalten, wie z. B. den ISO42001 AI Management System Standard und das NIST AI Risk Management Framework.

Die folgenden Abschnitte geben einen umfassenden Überblick über die unterstützten Methoden zur Erstellung von Modellevaluierungen, zur Anzeige der Ergebnisse einer Modellevaluierung und zur Analyse der Ergebnisse.

Aufgaben zur Modellbewertung

In einem Auftrag zur Modellbewertung handelt es sich bei einer Auswertungsaufgabe um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Eingabeaufforderungen ausführen soll. Sie können einen Aufgabentyp pro Modellevaluierungsjob wählen

Unterstützte Aufgabentypen bei Modellevaluierungsaufträgen
  • Generierung ohne Ende — Die Erzeugung natürlicher menschlicher Reaktionen auf Text, der keine vordefinierte Struktur hat.

  • Textzusammenfassung — Generierung einer präzisen und komprimierten Zusammenfassung unter Beibehaltung der Bedeutung und der wichtigsten Informationen, die in einem größeren Text enthalten sind.

  • Beantwortung von Fragen — Generierung einer relevanten und genauen Antwort auf eine Aufforderung.

  • Klassifizierung — Zuordnung einer Kategorie, z. B. einer Bezeichnung oder Bewertung, zu einem Text auf der Grundlage seines Inhalts.

  • Benutzerdefiniert — Ermöglicht es Ihnen, benutzerdefinierte Bewertungsdimensionen für Ihre Modellevaluierungsaufgabe zu definieren.

Jedem Aufgabentyp sind spezifische Metriken zugeordnet, die Sie in automatisierten Modellevaluierungsjobs verwenden können. Weitere Informationen zu den Metriken für automatische Modellevaluierungsjobs und Modellevaluierungsjobs, bei denen menschliche Mitarbeiter eingesetzt werden, finden Sie unterVerwendung von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen in Modellevaluierungsjobs .

Aktualisierung von Inferenzparametern

Inferenzparameter sind eine Möglichkeit, die Ausgabe eines Modells zu beeinflussen, ohne ein Modell neu trainieren oder feinabstimmen zu müssen.

Bei der automatischen Modellauswertung können Sie die neuen Tokens Temperatur, Top P und Max des Modells ändern.

Temperatur

Ändert den Grad der Zufälligkeit in den Antworten des Modells. Senken Sie die Standardtemperatur, um den Grad der Zufälligkeit zu verringern, und erhöhen Sie sie, um mehr zu erreichen.

Top-P

Während der Inferenz generiert das Modell Text und wählt aus einer Wortliste das nächste Wort aus. Durch die Aktualisierung von Top P wird die Anzahl der Wörter in dieser Liste auf der Grundlage eines Prozentsatzes geändert. Eine Verringerung von Top P führt zu deterministischeren Stichproben, während ein höherer Wert mehr Variabilität und Kreativität im generierten Text ermöglicht.

Max. Anzahl neuer Tokens

Ändert die Länge der Antwort, die das Modell liefern kann.

Sie können die Inferenzparameter in Studio aktualisieren, nachdem Sie das Modell zu Ihrem Modellevaluierungsjob hinzugefügt haben.

Automatische Aufträge zur Modellbewertung

Bei der automatischen Modellevaluierung werden auf Benchmarks basierende Kennzahlen verwendet, um toxische, schädliche oder anderweitig schlechte Reaktionen Ihrer Kunden zu messen. Modellantworten werden entweder anhand integrierter, für die Aufgabe spezifischer Datensätze bewertet, oder Sie können Ihren eigenen Datensatz für benutzerdefinierte Eingabeaufforderungen angeben.

Um einen automatischen Modellevaluierungsjob zu erstellen, können Sie Studio oder die fmevalBibliothek verwenden. Automatische Modellevaluierungsjobs unterstützen die Verwendung eines einzelnen Modells. In Studio können Sie entweder ein JumpStart Modell oder ein JumpStart Modell verwenden, das Sie zuvor auf einem Endpunkt bereitgestellt haben.

Alternativ können Sie die fmeval Bibliothek in Ihrer eigenen Codebasis bereitstellen und den Modellevaluierungsjob an Ihre eigenen Anwendungsfälle anpassen.

Verwenden Sie den generierten Bericht, um Ihre Ergebnisse besser zu verstehen. Der Bericht enthält Visualisierungen und Beispiele. Sie sehen auch die Ergebnisse, die in dem Amazon S3 S3-Bucket gespeichert wurden, der bei der Erstellung des Jobs angegeben wurde. Weitere Informationen zur Struktur der Ergebnisse finden Sie unterMachen Sie sich mit den Ergebnissen einer automatischen Evaluierung vertraut.

Um ein Modell zu verwenden, das in nicht öffentlich verfügbar ist JumpStart , müssen Sie die fmeval Bibliothek verwenden, um den automatischen Modellevaluierungsjob auszuführen. Eine Liste der JumpStart Modelle finden Sie unterVerfügbare Fundamentmodelle.

Vorlagen für Eingabeaufforderungen

Um sicherzustellen, dass das von Ihnen ausgewählte JumpStart Modell bei allen Eingabeaufforderungen eine gute Leistung erbringt, erweitert SageMaker Clarify Ihre Eingabeaufforderungen automatisch in ein Format, das für das Modell und die ausgewählten Bewertungsdimensionen am besten geeignet ist. Um die von Clarify bereitgestellte Standardvorlage für Eingabeaufforderungen zu sehen, wählen Sie auf der Karte für die Bewertungsdimension die Option Prompt-Vorlage aus. Wenn Sie in der Benutzeroberfläche beispielsweise den Aufgabentyp Textzusammenfassung auswählen, zeigt Clarify standardmäßig eine Karte für jede der zugehörigen Bewertungsdimensionen an — in diesem Fall Genauigkeit, Toxizität und Semantische Robustheit. Auf diesen Karten können Sie die Datensätze und die Vorlagen für Eingabeaufforderungen konfigurieren, die Clarify zur Messung dieser Bewertungsdimension verwendet. Sie können auch jede Dimension entfernen, die Sie nicht verwenden möchten.

Standardvorlagen für Aufforderungen

Clarify bietet eine Auswahl von Datensätzen, mit denen Sie die einzelnen Bewertungsdimensionen messen können. Sie können wählen, ob Sie einen oder mehrere dieser Datensätze verwenden möchten, oder Sie können Ihren eigenen benutzerdefinierten Datensatz angeben. Wenn Sie die von Clarify bereitgestellten Datensätze verwenden, können Sie auch die von Clarify eingefügten Eingabeaufforderungsvorlagen als Standardeinstellungen verwenden. Wir haben diese Standardansagen abgeleitet, indem wir das Antwortformat in jedem Datensatz analysiert und die Abfrageerweiterungen ermittelt haben, die erforderlich sind, um dasselbe Antwortformat zu erreichen.

Die von Clarify bereitgestellte Vorlage für Eingabeaufforderungen hängt auch vom ausgewählten Modell ab. Sie können ein Modell wählen, das darauf abgestimmt ist, Anweisungen an bestimmten Stellen der Aufforderung zu erwarten. Wählen Sie beispielsweise das Modell meta-textgenerationneuron-llama-2-7b, den Aufgabentyp Textzusammenfassung und Gigaword Datensatz, zeigt eine standardmäßige Eingabeaufforderungsvorlage mit den folgenden Elementen:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

Wenn Sie dagegen das Lama-Chat-Modell meta-textgenerationneuron-llama-2-7b-f auswählen, wird die folgende Standardvorlage für Eingabeaufforderungen angezeigt:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Benutzerdefinierte Vorlagen

Im Dialogfeld mit der Vorlage für Eingabeaufforderungen können Sie die von SageMaker Clarify bereitgestellte Unterstützung für automatische Vorlagen für Eingabeaufforderungen ein- oder ausschalten. Wenn Sie die automatische Vorlage für Eingabeaufforderungen deaktivieren, stellt Clarify die Standardaufforderung (als Basislinie für alle Datensätze innerhalb derselben Bewertungsdimension) bereit, die Sie ändern können. Wenn die Standardvorlage für Eingabeaufforderungen beispielsweise die Anweisung Folgendes in einem Satz zusammenfassen enthält, können Sie sie so ändern, dass Sie Folgendes in weniger als 100 Wörtern zusammenfassen oder eine beliebige andere Anweisung verwenden möchten.

Wenn Sie eine Eingabeaufforderung für eine Bewertungsdimension ändern, wird dieselbe Eingabeaufforderung außerdem auf alle Datensätze angewendet, die dieselbe Dimension verwenden. Wenn Sie sich also dafür entscheiden, die Aufforderung „Fassen Sie den folgenden Text in 17 Sätzen zusammen“ auf den Datensatz anwenden Gigaword Um die Toxizität zu messen, wird dieselbe Anweisung für den Datensatz verwendet Government report zur Messung der Toxizität. Wenn Sie eine andere Eingabeaufforderung für einen anderen Datensatz verwenden möchten (mit demselben Aufgabentyp und derselben Bewertungsdimension), können Sie die Python-Pakete von verwendenFMEval. Details hierzu finden Sie unter Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an.

Beispiel für eine aktualisierte Eingabeaufforderungsvorlage unter Verwendung der Prompt-Vorlage

Stellen Sie sich ein einfaches Szenario vor, in dem Sie über einen einfachen Datensatz verfügen, der nur aus zwei Eingabeaufforderungen besteht, und Sie diese anhand meta-textgenerationneuron-llama-2-7b-f dessen auswerten möchten.

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Da es sich bei Ihren Eingabeaufforderungen um Fragen- und Antwortpaare handelt, wählen Sie den Aufgabentyp Question Answering (Q&A).

Wenn Sie in Studio die Vorlage „Aufforderung“ auswählen, können Sie sehen, wie SageMaker Clarify Ihre Eingabeaufforderungen formatiert, damit sie den Anforderungen des Modells entsprechen. meta-textgenerationneuron-llama-2-7b-f JumpStart

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Für dieses Modell ergänzt SageMaker Clarify Ihre Eingabeaufforderungen, sodass sie das richtige Format für die Eingabeaufforderung enthalten, indem es die Tags [INST] und <<SYS>> hinzufügt. Außerdem wird Ihre ursprüngliche Anfrage um zusätzliche Informationen erweitertRespond to the following question. Valid answers are "True" or "False"., damit das Modell besser reagieren kann.

Der von SageMaker Clarify bereitgestellte Text ist möglicherweise nicht gut für Ihren Anwendungsfall geeignet. Um die standardmäßigen Eingabeaufforderungsvorlagen zu deaktivieren, stellen Sie den Schalter Standardvorlagen für Eingabeaufforderungen im Datensatz auf Aus.

Sie können die Vorlage für Eingabeaufforderungen so bearbeiten, dass sie an Ihren Anwendungsfall angepasst wird. Sie können beispielsweise anstelle eines Antwortformats „Wahr/Falsch“ eine kurze Antwort anfordern, wie in der folgenden Zeile dargestellt:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Jetzt verwenden alle integrierten oder benutzerdefinierten Eingabeaufforderungsdatensätze unter der angegebenen Evaluierungsdimension die von Ihnen angegebene Eingabeaufforderungsvorlage.

Modellieren Sie Bewertungsjobs, bei denen Menschen (Arbeiter) zum Einsatz kommen

Sie können auch menschliche Mitarbeiter einsetzen, um Ihre Modellantworten manuell auf subjektivere Aspekte wie Hilfsbereitschaft oder Stil hin zu bewerten. Um einen Modellevaluierungsjob zu erstellen, bei dem menschliche Mitarbeiter verwendet werden, müssen Sie Studio verwenden.

In einem Modellevaluierungsjob, bei dem menschliche Mitarbeiter verwendet werden, können Sie die Antworten für bis zu zwei JumpStart Modelle vergleichen. Optional können Sie auch Antworten von Modellen außerhalb von angeben AWS. Alle Modellevaluierungsjobs, bei denen menschliche Mitarbeiter eingesetzt werden, erfordern, dass Sie einen benutzerdefinierten Prompt-Datensatz erstellen und ihn in Amazon S3 speichern. Weitere Informationen zum Erstellen von benutzerdefinierten Eingabeaufforderungsdaten finden Sie unterErstellen eines Auftrags zur Modellbewertung mit menschliche Mitarbeitern.

In Studio können Sie die Kriterien definieren, anhand derer Ihre Mitarbeiter Antworten aus Modellen bewerten. Sie können Evaluierungsanweisungen auch mithilfe einer in Studio verfügbaren Vorlage dokumentieren. Darüber hinaus können Sie in Studio ein Arbeitsteam erstellen. Das Arbeitsteam besteht aus Personen, die Sie an Ihrer Modellevaluierung teilnehmen möchten.