Erstellen Sie einen automatischen Modellevaluierungsjob in Studio

Der in Studio verfügbare Assistent führt Sie durch die Auswahl eines zu evaluierenden Modells, die Auswahl eines Aufgabentyps, die Auswahl von Metriken und Datensätzen sowie die Konfiguration aller erforderlichen Ressourcen. In den folgenden Themen erfahren Sie, wie Sie einen optionalen benutzerdefinierten Eingabedatensatz formatieren, Ihre Umgebung einrichten und den Modellevaluierungsjob in Studio erstellen.

Wenn Sie ein integriertes Dataset verwenden, um Ihr Modell in Studio auszuwerten, ist das Dataset korrekt formatiert. Um Ihren eigenen Datensatz mit benutzerdefinierten Eingabeaufforderungen verwenden zu können, muss es sich um eine jsonlines Datei handeln, in der jede Zeile ein gültiges JSON Objekt ist. Jedes JSON Objekt muss eine einzige Eingabeaufforderung enthalten.

Um sicherzustellen, dass das von Ihnen ausgewählte JumpStart Modell eine gute Leistung erbringt, formatiert SageMaker Clarify automatisch alle Prompt-Datensätze so, dass sie das Format haben, das für die von Ihnen ausgewählten Model-Evaluations-Dimensionen am besten geeignet ist. Bei integrierten Prompt-Datensätzen erweitert SageMaker Clarify Ihre Eingabeaufforderung auch um zusätzlichen Anweisungstext. Um zu sehen, wie SageMaker Clarify die Eingabeaufforderungen ändert, wählen Sie unter den Bewertungsdimensionen, die Sie dem Modellevaluierungsjob hinzugefügt haben, die Option Prompt-Vorlage aus. Ein Beispiel dafür, wie Sie eine Eingabeaufforderungsvorlage ändern können, finden Sie unter Beispiel für eine Eingabeaufforderungsvorlage.

Mit diesem Schalter können Sie die Unterstützung für automatische Vorlagen für Eingabeaufforderungen, die SageMaker Clarify für integrierte Datensätze bereitstellt, ein- oder ausschalten. Wenn Sie die automatische Vorlage für Eingabeaufforderungen deaktivieren, können Sie Ihre eigenen benutzerdefinierten Vorlagen für Eingabeaufforderungen angeben, die auf alle Eingabeaufforderungen in Ihrem Datensatz angewendet werden.

In den folgenden Aufgabenlisten erfahren Sie, welche Schlüssel für einen benutzerdefinierten Datensatz in der Benutzeroberfläche verfügbar sind.

model_input— Erforderlich, um die Eingabe für die folgenden Aufgaben anzugeben.
- Die Aufforderung, auf die Ihr Modell bei Generierungs-, Toxizitäts - und Genauigkeitsaufgaben mit offenem Ende reagieren sollte.
- Die Frage, die Ihr Modell bei der Beantwortung von Fragen und bei Aufgaben zum Faktenwissen beantworten sollte.
- Der Text, den Ihr Modell in Aufgaben zur Textzusammenfassung zusammenfassen soll.
- Der Text, den Ihr Modell in Klassifizierungsaufgaben klassifizieren soll.
- Der Text, den Ihr Modell bei Aufgaben zur semantischen Robustheit stören soll.
target_output— Erforderlich, um die Antwort anzugeben, anhand derer Ihr Modell für die folgenden Aufgaben bewertet wird.
- Die Antwort auf Aufgaben wie Beantwortung von Fragen, Genauigkeit, semantische Robustheit und sachliche Bewertung.
- Bei Aufgaben zur Genauigkeit und semantischen Robustheit trennen Sie akzeptable Antworten durch ein. <OR> Bei der Bewertung werden alle durch ein Komma getrennten Antworten als richtig akzeptiert. Geben Sie als Beispiel antarget_output="UK<OR>England<OR>United Kingdom", ob Sie entweder UK oder England oder United Kingdom als akzeptable Antworten akzeptieren möchten.
(Optional) category — Generiert Bewertungsergebnisse, die für jede Kategorie gemeldet werden.
sent_less_input— Erforderlich, um die Eingabeaufforderung anzugeben, die weniger Verzerrungen bei Aufgaben zur Stereotypisierung von Eingabeaufforderungen enthält.
sent_more_input— Erforderlich, um die Eingabeaufforderung anzugeben, die bei Aufgaben zur Stereotypisierung stärker voreingenommen ist.

Eine Bewertung des Faktenwissens erfordert sowohl die zu stellende Frage als auch die Antwort, mit der die Antwort des Modells verglichen werden muss. Verwenden Sie den Schlüssel model_input mit dem in der Frage enthaltenen Wert und den Schlüssel target_output mit dem in der Antwort enthaltenen Wert wie folgt:


{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

Das vorherige Beispiel ist ein einzelnes gültiges JSON Objekt, das einen Datensatz in einer jsonlines Eingabedatei bildet. Jedes JSON Objekt wird als Anfrage an Ihr Modell gesendet. Um mehrere Anfragen zu stellen, fügen Sie mehrere Zeilen hinzu. Das folgende Beispiel für eine Dateneingabe bezieht sich auf eine Frage-Antwort-Aufgabe, bei der ein optionaler category-Schlüssel zur Auswertung verwendet wird.


{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Wenn Sie Ihren Algorithmus in der Benutzeroberfläche auswerten, werden die folgenden Standardwerte für Ihren Eingabedatensatz festgelegt:

Die Anzahl der Datensätze, die bei der Auswertung verwendet werden, ist festgelegt. Der Algorithmus wählt diese Anzahl von Anfragen nach dem Zufallsprinzip aus Ihrem Eingabedatensatz aus.
- Um diese Zahl zu ändern: Verwenden Sie die fmeval Bibliothek wie unter Anpassen Ihres Workflows mithilfe der fmeval Bibliothek beschrieben, und legen Sie den Parameter num_records auf die gewünschte Anzahl von Stichproben fest, oder geben Sie den gesamten Datensatz -1 an. Die Standardanzahl der Datensätze, die bewertet werden, bezieht sich auf 100 Aufgaben wie Genauigkeit, schnelle Stereotypisierung, Toxizität, Klassifizierung und semantische Robustheit. Die Standardanzahl von Datensätzen für eine Aufgabe zum Thema Faktenwissen ist. 300
Das zuvor im target_output Parameter beschriebene Zielausgabetrennzeichen ist in der Benutzeroberfläche auf <OR> eingestellt.
- Um akzeptable Antworten mit einem anderen Trennzeichen zu trennen: Verwenden Sie die fmeval Bibliothek wie unter Anpassen Ihres Workflows mithilfe der fmeval Bibliothek beschrieben, und setzen Sie den Parameter target_output_delimiter auf das gewünschte Trennzeichen.
Sie müssen ein textbasiertes JumpStart Sprachmodell verwenden, das für die Modellevaluierung verfügbar ist. Diese Modelle verfügen über mehrere Konfigurationsparameter für die Dateneingabe, die automatisch an den FMeval Prozess übergeben werden.
- Um eine andere Art von Modell zu verwenden: Verwenden Sie die fmeval Bibliothek, um die Datenkonfiguration für Ihren Eingabedatensatz zu definieren.

Um eine automatische Auswertung für Ihr umfangreiches Sprachmodell (LLM) durchzuführen, müssen Sie Ihre Umgebung so einrichten, dass sie über die richtigen Berechtigungen für die Durchführung einer Evaluierung verfügt. Anschließend können Sie sich mithilfe der Benutzeroberfläche durch die einzelnen Schritte im Arbeitsablauf führen und eine Evaluierung durchführen. In den folgenden Abschnitten erfahren Sie, wie Sie die Benutzeroberfläche verwenden, um eine automatische Bewertung durchzuführen.

Voraussetzungen

Um eine Modellevaluierung in einer Studio-Benutzeroberfläche auszuführen, müssen Ihre Rolle AWS Identity and Access Management (IAM) und alle Eingabe-Datasets über die richtigen Berechtigungen verfügen. Wenn Sie keine SageMaker Domäne oder IAM Rolle haben, folgen Sie den Schritten unterLeitfaden zur Einrichtung bei Amazon SageMaker.

So legen Sie Berechtigungen für Ihren S3-Bucket fest

Gehen Sie nach der Erstellung Ihrer Domain und Rolle wie folgt vor, um die für die Evaluierung Ihres Modells erforderlichen Berechtigungen hinzuzufügen.

Öffnen Sie die SageMaker Amazon-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie im Navigationsbereich S3 in die Suchleiste oben auf der Seite ein.
Wählen Sie unter Dienste die Option S3 aus.
Wählen Sie im Navigationsbereich Buckets aus.
Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des Amazon S3 S3-Buckets aus, den Sie zum Speichern Ihres benutzerdefinierten Prompt-Datensatzes verwenden möchten und in dem die Ergebnisse Ihres Modellevaluierungsjobs gespeichert werden sollen. Ihr Amazon S3 S3-Bucket muss sich in derselben Datei befinden AWS-Region wie Ihre Studio-Instance. Wenn Sie keinen Amazon S3 S3-Bucket haben, gehen Sie wie folgt vor.
1. Wählen Sie Bucket erstellen aus, um eine neue Seite Bucket erstellen zu öffnen.
2. Wählen Sie im Abschnitt Allgemeine Konfiguration unter AWS Region die AWS Region aus, in der sich Ihr Foundation-Modell befindet.
3. Benennen Sie Ihren S3-Bucket im Eingabefeld unter Bucket-Name.
4. Akzeptieren Sie alle Standardoptionen.
5. Wählen Sie Bucket erstellen aus.
6. Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie erstellt haben.
Wählen Sie die Registerkarte Berechtigungen.
Scrollen Sie unten im Fenster zum Abschnitt Cross-Origin Resource Sharing (CORS). Wählen Sie Edit (Bearbeiten) aus.

Um die CORS Berechtigungen zu Ihrem Bucket hinzuzufügen, kopieren Sie den folgenden Code in das Eingabefeld.


[
{
    "AllowedHeaders": [
        "*"
    ],
    "AllowedMethods": [
        "GET",
        "PUT",
        "POST",
        "DELETE"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
        "Access-Control-Allow-Origin"
    ]
}
]

Wählen Sie Änderungen speichern.

Um Ihrer IAM Richtlinie Berechtigungen hinzuzufügen

Geben Sie in der Suchleiste oben auf der Seite einIAM.
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
Wählen Sie im Navigationsbereich Richtlinien aus.
Wählen Sie Create Policy (Richtlinie erstellen) aus. Wenn der Richtlinien-Editor geöffnet wird, wählen Sie JSON.
Wählen Sie Weiter.

Stellen Sie sicher, dass die folgenden Berechtigungen im Policy-Editor angezeigt werden. Sie können Folgendes auch kopieren und in den Policy-Editor einfügen.


{
"Version": "2012-10-17",
"Statement": [
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams",
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket",
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
         ],
            "Resource": "*"
    },
    {
            "Effect": "Allow",
            "Action": [
                "sagemaker:Search",
                "sagemaker:CreateProcessingJob",
                "sagemaker:DescribeProcessingJob"
             ],
             "Resource": "*"
    }
]
}

Wählen Sie Weiter.
Geben Sie im Abschnitt Richtliniendetails unter Richtlinienname einen Richtliniennamen ein. Sie können auch eine optionale Beschreibung eingeben. Sie werden nach diesem Richtliniennamen suchen, wenn Sie ihn einer Rolle zuweisen.
Wählen Sie Create Policy (Richtlinie erstellen) aus.

Um Ihrer IAM Rolle Berechtigungen hinzuzufügen

Wählen Sie im Navigationsbereich Roles (Rollen) aus. Geben Sie den Namen der Rolle ein, die Sie verwenden möchten.
Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.
Klicken Sie im Abschnitt Richtlinien für Berechtigungen auf den Abwärtspfeil neben Berechtigungen hinzufügen.
Wählen Sie aus den angezeigten Optionen die Option Richtlinien anhängen aus.
Suchen Sie in der Liste der angezeigten Richtlinien nach der Richtlinie, die Sie in Schritt 5 erstellt haben. Aktivieren Sie das Kontrollkästchen neben dem Namen Ihrer Richtlinie.
Wählen Sie den Abwärtspfeil neben Aktionen.
Wählen Sie aus den angezeigten Optionen die Option Anhängen aus.
Suchen Sie nach dem Namen der Rolle, die Sie erstellt haben. Aktivieren Sie das Kontrollkästchen neben dem Namen.
Wählen Sie Add permissions (Berechtigungen hinzufügen) aus. Ein Banner oben auf der Seite sollte darauf hinweisen, dass die Richtlinie erfolgreich an die Rolle angehängt wurde.

Wenn Sie einen Auftrag zur automatischen Modellevaluierung erstellen, können Sie aus verfügbaren textbasierten JumpStart Modellen wählen oder ein textbasiertes JumpStart Modell verwenden, das Sie zuvor auf einem Endpunkt bereitgestellt haben.

Gehen Sie wie folgt vor, um einen Auftrag zur automatischen Modellevaluierung zu erstellen.

Um einen automatischen Modellevaluierungsjob in Studio zu starten.

Öffnen Sie die SageMaker Amazon-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie in der Suchleiste oben auf der Seite einSageMaker.
Wählen Sie unter Services Amazon aus SageMaker.
Wählen Sie im Navigationsbereich Studio aus.
Wählen Sie im Abschnitt Erste Schritte Ihre Domain aus, nachdem Sie den Abwärtspfeil unter Domain auswählen erweitert haben.
Wählen Sie im Abschnitt Erste Schritte Ihr Benutzerprofil aus, nachdem Sie den Abwärtspfeil unter Benutzerprofil auswählen erweitert haben.
Wählen Sie Studio öffnen, um die Landingpage für Studio zu öffnen.
Wählen Sie im primären Navigationsbereich Jobs aus.
Wählen Sie dann Modellevaluierung aus.

Um einen Evaluierungsjob einzurichten

Wählen Sie als Nächstes Modell evaluieren,.
Gehen Sie in Schritt 1: Jobdetails angeben wie folgt vor:
1. Geben Sie den Namen Ihrer Modellevaluierung ein. Anhand dieses Namens können Sie Ihren Job zur Modellevaluierung identifizieren, nachdem er eingereicht wurde.
2. Geben Sie eine Beschreibung ein, um dem Namen mehr Kontext hinzuzufügen.
3. Wählen Sie Weiter.
Gehen Sie in Schritt 2: Bewertung einrichten wie folgt vor:
1. Wählen Sie unter Bewertungstyp die Option Automatisch aus.
2. Wählen Sie dann Modell zur Bewertung hinzufügen aus
3. Im Modal Modell hinzufügen können Sie wählen, ob Sie entweder ein vortrainiertes Jumpstart-Foundation-Modell oder SageMaker einen Endpunkt verwenden möchten. Wenn Sie das JumpStart Modell bereits bereitgestellt haben, wählen Sie SageMaker Endpunkt, andernfalls wählen Sie Vortrainiertes Jumpstart-Foundation-Modell.
4. Wählen Sie dann Save (Speichern) aus.
5. (Optional) Nachdem Sie Ihr Modell hinzugefügt haben, wählen Sie Prompt-Vorlage aus, um das erwartete Eingabeformat für Eingabeaufforderungen basierend auf dem ausgewählten Modell anzuzeigen. Informationen zur Konfiguration einer Eingabeaufforderungsvorlage für einen Datensatz finden Sie unterVorlagen für Eingabeaufforderungen.
  - Gehen Sie wie folgt vor, um die Standardvorlage für Eingabeaufforderungen zu verwenden:
    1. Aktivieren Sie die Option Die in den Datensätzen bereitgestellten Standardvorlagen für Eingabeaufforderungen verwenden.
    2. (Optional) Überprüfen Sie für jeden Datensatz die von Clarify bereitgestellte Aufforderung.
    3. Wählen Sie Save (Speichern) aus.
  - Gehen Sie wie folgt vor, um eine benutzerdefinierte Eingabeaufforderungsvorlage zu verwenden:
    1. Deaktivieren Sie die Option Verwenden Sie die in den Datensätzen bereitgestellten Standardvorlagen für Eingabeaufforderungen.
    2. Wenn Clarify eine Standard-Eingabeaufforderung anzeigt, können Sie sie anpassen oder entfernen und Ihre eigene Eingabe vornehmen. Sie müssen die $model_input Variable in die Eingabeaufforderungsvorlage aufnehmen.
    3. Wählen Sie Save (Speichern) aus.
6. Wählen Sie dann unter Aufgabentyp einen Aufgabentyp aus.
  
  Weitere Informationen zu Aufgabentypen und den zugehörigen Bewertungsdimensionen finden Sie im Abschnitt Automatische Auswertung unter Verwendung von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen in Modellevaluierungsjobs .
7. Wählen Sie im Abschnitt Bewertungskennzahlen eine Bewertungsdimension aus. Das Textfeld unter Beschreibung enthält zusätzlichen Kontext zu der Dimension.
  
  Nachdem Sie eine Aufgabe ausgewählt haben, werden die mit der Aufgabe verknüpften Metriken unter Metriken angezeigt. Gehen Sie in diesem Abschnitt wie folgt vor.
8. Wählen Sie mit dem Abwärtspfeil unter Bewertungsdimension eine Bewertungsdimension aus.
9. Wählen Sie einen Bewertungsdatensatz aus. Sie können wählen, ob Sie Ihren eigenen Datensatz oder einen integrierten Datensatz verwenden möchten. Wenn Sie Ihren eigenen Datensatz zur Auswertung des Modells verwenden möchten, muss dieser so formatiert sein, dass es verwendet werden FMEval kann. Es muss sich außerdem in einem S3-Bucket befinden, das über die im vorherigen So richten Sie Ihre Umgebung ein Abschnitt genannten CORS Berechtigungen verfügt. Weitere Informationen zum Formatieren eines benutzerdefinierten Datensatzes finden Sie unterVerwenden Sie einen benutzerdefinierten Eingabedatensatz.
10. Geben Sie einen S3-Bucket-Speicherort ein, an dem Sie die ausgegebenen Auswertungsergebnisse speichern möchten. Diese Datei hat das Format jsonlines (.jsonl).
11. Konfigurieren Sie Ihren Prozessor im Abschnitt Prozessorkonfiguration mit den folgenden Parametern:
  - Verwenden Sie die Anzahl der Instanzen, um die Anzahl der Recheninstanzen anzugeben, die Sie zur Ausführung Ihres Modells verwenden möchten. Wenn Sie mehr als eine 1 Instanz verwenden, wird Ihr Modell in parallel Instanzen ausgeführt.
  - Verwenden Sie den Instanztyp, um die Art der Recheninstanz auszuwählen, die Sie zur Ausführung Ihres Modells verwenden möchten. Weitere Informationen zu Instance-Typen finden Sie unterInstance-Typen, die für die Verwendung mit Studio Classic verfügbar sind.
  - Verwenden Sie den KMSVolume-Schlüssel, um Ihren AWS Key Management Service (AWS KMS) Verschlüsselungsschlüssel anzugeben. SageMaker verwendet Ihren AWS KMS Schlüssel, um eingehenden Datenverkehr vom Modell und Ihrem Amazon S3 S3-Bucket zu verschlüsseln. Weitere Informationen zu Schlüsseln finden Sie unter AWS Key Management Service.
  - Verwenden Sie den KMSAusgabeschlüssel, um Ihren AWS KMS Verschlüsselungsschlüssel für ausgehenden Datenverkehr anzugeben.
  - Verwenden Sie IAMRole, um den Zugriff und die Berechtigungen für den Standardprozessor anzugeben. Geben Sie die IAM Rolle ein, die Sie eingerichtet haben So richten Sie Ihre Umgebung ein
12. Nachdem Sie Ihr Modell und Ihre Kriterien angegeben haben, wählen Sie Weiter. Im Hauptfenster wird mit Schritt 5 Überprüfen und Speichern fortgefahren.

Überprüfen Sie Ihren Bewertungsauftrag und führen Sie ihn aus

Überprüfen Sie alle Parameter, Modelle und Daten, die Sie für Ihre Bewertung ausgewählt haben.
Wählen Sie Ressource erstellen aus, um Ihre Bewertung durchzuführen.
Um Ihren Jobstatus zu überprüfen, gehen Sie auf der Seite zum Anfang des Abschnitts Modellevaluierungen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Automatische Modellevaluierung

Verwenden Sie die fmeval Bibliothek, um eine automatische Bewertung durchzuführen