Erstellen Sie einen Modellevaluierungsjob, bei dem menschliche Arbeitskräfte zum Einsatz kommen

Wichtig

Benutzerdefinierte IAM-Richtlinien, die es Amazon SageMaker Studio oder Amazon SageMaker Studio Classic ermöglichen, SageMaker Amazon-Ressourcen zu erstellen, müssen auch Berechtigungen zum Hinzufügen von Tags zu diesen Ressourcen gewähren. Die Berechtigung zum Hinzufügen von Tags zu Ressourcen ist erforderlich, da Studio und Studio Classic automatisch alle von ihnen erstellten Ressourcen taggen. Wenn eine IAM-Richtlinie Studio und Studio Classic das Erstellen von Ressourcen, aber kein Tagging erlaubt, können "AccessDenied" Fehler auftreten, wenn versucht wird, Ressourcen zu erstellen. Weitere Informationen finden Sie unter Stellen Sie Berechtigungen für das Taggen von KI-Ressourcen SageMaker bereit.

AWS verwaltete Richtlinien für Amazon SageMaker AIdie Berechtigungen zum Erstellen von SageMaker Ressourcen gewähren, beinhalten bereits Berechtigungen zum Hinzufügen von Tags beim Erstellen dieser Ressourcen.

Um einen Modellevaluierungsjob zu erstellen, bei dem menschliche Mitarbeiter eingesetzt werden, müssen Sie Ihre Umgebung so einrichten, dass sie über die richtigen Berechtigungen verfügt. Anschließend können Sie mit dem Assistenten für Modellevaluierungsjobs in Studio die Modelle auswählen, die Sie verwenden möchten, und dann die Parameter und die Belegschaft definieren, die Sie für den Modellevaluierungsjob verwenden möchten.

Wenn der Auftrag abgeschlossen ist, können Sie sich einen Bericht ansehen, um zu erfahren, wie Ihre Belegschaft die von Ihnen ausgewählten Modelle bewertet hat. Die Ergebnisse werden auch in Amazon S3 als jsonlines Ausgabedatei gespeichert.

Bei einer Modellevaluierung, bei der menschliche Mitarbeiter zum Einsatz kommen, haben Sie die Möglichkeit, Inferenzdaten aus Modellen, die außerhalb von KI gehostet werden, und von Modellen, die außerhalb von SageMaker KI gehostet werden, heranzuziehen. AWS Weitere Informationen hierzu finden Sie unter Verwenden Sie Ihre eigenen Inferenzdaten bei Modellevaluierungsjobs, bei denen menschliche Mitarbeiter eingesetzt werden.

Wenn Ihre Jobs abgeschlossen sind, werden die Ergebnisse in dem Amazon S3 S3-Bucket gespeichert, der bei der Erstellung des Jobs angegeben wurde. Informationen zur Interpretation Ihrer Ergebnisse finden Sie unterMachen Sie sich mit den Ergebnissen Ihrer Model-Evaluierung vertraut.

Voraussetzungen

Um eine Modellevaluierung in der Amazon SageMaker Studio-Benutzeroberfläche durchzuführen, müssen Ihre AWS Identity and Access Management (IAM-) Rolle und alle Eingabedatensätze über die richtigen Berechtigungen verfügen. Wenn Sie keine SageMaker AI-Domain- oder IAM-Rolle haben, folgen Sie den Schritten unter. Leitfaden zur Einrichtung von Amazon SageMaker AI

Richten Sie Ihre Berechtigungen ein

Im folgenden Abschnitt erfahren Sie, wie Sie einen Amazon S3 S3-Bucket erstellen und die richtigen CORS-Berechtigungen (Cross-Origin Resource Sharing) angeben.

Um einen Amazon S3 S3-Bucket zu erstellen und die CORS-Berechtigungen anzugeben

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie im Navigationsbereich S3 in die Suchleiste oben auf der Seite ein.
Wählen Sie unter Dienste die Option S3 aus.
Wählen Sie im Navigationsbereich Buckets aus.
Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie zum Speichern Ihrer Modelleingabe und -ausgabe in der Konsole verwenden möchten. Wenn Sie keinen S3-Bucket haben, gehen Sie wie folgt vor.
1. Wählen Sie Bucket erstellen aus, um eine neue Seite „Bucket erstellen“ zu öffnen.
2. Wählen Sie im Abschnitt Allgemeine Konfiguration unter AWS Region die AWS Region aus, in der sich Ihr Foundation-Modell befindet.
3. Benennen Sie Ihren S3-Bucket im Eingabefeld unter Bucket-Name.
4. Akzeptieren Sie alle Standardoptionen.
5. Wählen Sie Bucket erstellen aus.
6. Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie erstellt haben.
Wählen Sie die Registerkarte Berechtigungen.
Scrollen Sie unten im Fenster zum Abschnitt Cross-Origin Resource Sharing (CORS). Wählen Sie Edit (Bearbeiten) aus.

Im Folgenden finden Sie die mindestens erforderliche CORS-Richtlinie, die Sie Ihrem Amazon S3 S3-Bucket hinzufügen müssen. Kopieren Sie den folgenden Text und fügen Sie ihn in das Eingabefeld ein.


[
{
    "AllowedHeaders": ["*"],
    "AllowedMethods": [
        "GET",
        "HEAD",
        "PUT"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
      "Access-Control-Allow-Origin"
    ],
    "MaxAgeSeconds": 3000
}
]

Wählen Sie Änderungen speichern.

Um Ihrer IAM-Richtlinie Berechtigungen hinzuzufügen

Möglicherweise sollten Sie die Ebene der Berechtigungen berücksichtigen, die Ihrer IAM-Rolle zugewiesen werden sollen.

Sie können eine benutzerdefinierte IAM-Richtlinie erstellen, die die für diesen Dienst erforderlichen Mindestberechtigungen zulässt.
Sie können die vorhandenen AmazonSageMakerFullAccessAmazonS3FullAccessIAM-Richtlinien an Ihre bestehende IAM-Rolle anhängen, was großzügiger ist. Weitere Informationen zu der AmazonSageMakerFullAccess Richtlinie finden Sie unter. AmazonSageMakerFullAccess

Wenn Sie die vorhandenen Richtlinien an Ihre IAM-Rolle anhängen möchten, können Sie die hier aufgeführten Anweisungen überspringen und weiterhin den Anweisungen unter So fügen Sie Ihrer IAM-Rolle Berechtigungen hinzu folgen.

Mit den folgenden Anweisungen wird eine benutzerdefinierte IAM-Richtlinie erstellt, die auf diesen Service mit Mindestberechtigungen zugeschnitten ist.

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie in der Suchleiste oben auf der Seite einIAM.
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
Wählen Sie im Navigationsbereich Richtlinien aus.
Wählen Sie Create Policy (Richtlinie erstellen) aus. Wenn der Policy-Editor geöffnet wird, wählen Sie JSON aus.

Stellen Sie sicher, dass die folgenden Berechtigungen im Policy-Editor angezeigt werden. Sie können Folgendes auch kopieren und in den Policy-Editor einfügen.


{
"Version": "2012-10-17",
"Statement":
    [{
        "Effect": "Allow",
        "Action": [
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket"
        ],
        "Resource": [
            "arn:aws:s3:::{input_bucket}/*",
            "arn:aws:s3:::{input_bucket}",
            "arn:aws:s3:::{output_bucket}/*",
            "arn:aws:s3:::{output_bucket}",
            "arn:aws:s3:::jumpstart-cache-prod-{region}/*",
            "arn:aws:s3:::jumpstart-cache-prod-{region}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:CreateEndpoint",
            "sagemaker:DeleteEndpoint",
            "sagemaker:CreateEndpointConfig",
            "sagemaker:DeleteEndpointConfig"
        ],
        "Resource": [
            "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*",
            "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*"
        ],
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeProcessingJob",
            "sagemaker:DescribeEndpoint",
            "sagemaker:InvokeEndpoint"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeInferenceComponent",
            "sagemaker:AddTags",
            "sagemaker:CreateModel",
            "sagemaker:DeleteModel"
        ],
        "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*",
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeFlowDefinition",
            "sagemaker:StartHumanLoop",
            "sagemaker:DescribeHumanLoop"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams"
        ],
        "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData"
        ],
        "Resource":"*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "kms:DescribeKey",
            "kms:GetPublicKey",
            "kms:Decrypt",
            "kms:Encrypt"
        ],
        "Resource": [
            "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "iam:PassRole"
        ],
        "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}",
        "Condition": {
            "StringEquals": {
                "aws:PrincipalAccount": [
                    "account-id"
                ]
            }
        }
    }]
}

Wählen Sie Weiter.
Geben Sie im Abschnitt Richtliniendetails unter Richtlinienname einen Richtliniennamen ein. Sie können auch eine optionale Beschreibung eingeben. Sie suchen nach diesem Richtliniennamen, wenn Sie ihn einer Rolle zuweisen.
Wählen Sie Create Policy (Richtlinie erstellen) aus.

Um Ihrer IAM-Rolle Berechtigungen hinzuzufügen

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie in der Suchleiste oben auf der Seite einIAM.
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
Wählen Sie im Navigationsbereich Roles (Rollen) aus.
Wenn Sie eine neue Rolle erstellen:
1. Wählen Sie Rolle erstellen.
2. Wählen Sie im Schritt Vertrauenswürdige Entität auswählen unter Vertrauenswürdiger Entitätstyp die Option Benutzerdefinierte Vertrauensrichtlinie aus.
3. Wählen Sie im Editor für benutzerdefinierte Vertrauensrichtlinien neben Principal hinzufügen die Option Hinzufügen aus.
4. Wählen Sie im Popupfeld Prinzipal hinzufügen unter Prinzipaltyp die Option AWS Dienste aus der Dropdownliste mit Optionen aus.
5. Ersetzen Sie unter ARN {ServiceName} durchsagemaker.
6. Wählen Sie Principal hinzufügen aus.
7. Wählen Sie Weiter.
8. (Optional) Wählen Sie unter Berechtigungsrichtlinien die Richtlinien aus, die Sie Ihrer Rolle hinzufügen möchten.
9. (Optional) Wählen Sie unter Berechtigungsgrenze festlegen — optional Ihre Einstellung für die Berechtigungsgrenze aus.
10. Wählen Sie Weiter.
11. Geben Sie im Schritt Name, Überprüfung und Erstellung unter Rollendetails Ihren Rollennamen und Ihre Beschreibung ein.
12. (Optional) Unter Tags hinzufügen — optional können Sie Tags hinzufügen, indem Sie Neues Tag hinzufügen auswählen und ein optionales Paar aus Schlüssel und Wert eingeben.
13. Überprüfen Sie die Einstellungen.
14. Wählen Sie Rolle erstellen.
Wenn Sie die Richtlinie zu einer vorhandenen Rolle hinzufügen, gehen Sie wie folgt vor:
1. Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.
2. Klicken Sie im Abschnitt Richtlinien für Berechtigungen auf den Abwärtspfeil neben Berechtigungen hinzufügen.
3. Wählen Sie aus den angezeigten Optionen die Option Richtlinien anhängen aus.
4. Suchen Sie in der Liste der angezeigten Richtlinien nach der Richtlinie, die Sie unter So fügen Sie Ihrer IAM-Richtlinie Berechtigungen hinzu, wählen Sie sie aus und aktivieren Sie das Kontrollkästchen neben dem Namen Ihrer Richtlinie. Wenn Sie keine benutzerdefinierte IAM-Richtlinie erstellt haben, suchen Sie nach den entsprechenden Richtlinien AmazonSageMakerFullAccessund AmazonS3FullAccessaktivieren Sie sie. AWS Möglicherweise sollten Sie die Ebene der Berechtigungen berücksichtigen, die Ihrer IAM-Rolle zugewiesen werden sollen. Die Anweisungen für die benutzerdefinierte IAM-Richtlinie sind weniger freizügig, während letztere toleranter ist. Weitere Informationen zu der Richtlinie finden Sie unter. AmazonSageMakerFullAccess AmazonSageMakerFullAccess
5. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus. Ein Banner oben auf der Seite sollte darauf hinweisen, dass die Richtlinie erfolgreich an die Rolle angehängt wurde. wenn abgeschlossen.

Um Ihrer IAM-Rolle eine Vertrauensrichtlinie hinzuzufügen

Die folgende Vertrauensrichtlinie ermöglicht es Administratoren, SageMaker KI die Übernahme der Rolle zu gestatten. Sie müssen die Richtlinie zu Ihrer IAM-Rolle hinzufügen. Gehen Sie dazu wie folgt vor.

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie in der Suchleiste oben auf der Seite einIAM.
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
Wählen Sie im Navigationsbereich Roles (Rollen) aus.
Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.
Wählen Sie den Tab Vertrauensverhältnis.
Wählen Sie Vertrauensrichtlinie bearbeiten aus.

Stellen Sie sicher, dass die folgende Richtlinie unter Vertrauensrichtlinie bearbeiten angezeigt wird. Sie können Folgendes auch kopieren und in den Editor einfügen.


{
"Version": "2012-10-17",
"Statement": [
    {
        "Sid": "",
        "Effect": "Allow",
        "Principal": {
            "Service": [
                "sagemaker.amazonaws.com"
            ]
        },
        "Action": "sts:AssumeRole"
    }
]
}

Wählen Sie Richtlinie aktualisieren. In einem Banner oben auf der Seite sollte angegeben werden, dass die Vertrauensrichtlinie aktualisiert wurde. wenn abgeschlossen.

Sie können einen menschlichen Bewertungsauftrag mithilfe eines textbasierten Modells erstellen, das in verfügbar ist, JumpStart oder Sie können ein JumpStart Modell verwenden, das Sie zuvor auf einem Endpunkt bereitgestellt haben.

Um zu starten JumpStart

Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.
Geben Sie in der Suchleiste oben auf der Seite einSageMaker AI.
Wählen Sie unter Services Amazon SageMaker AI aus.
Wählen Sie im Navigationsbereich Studio aus.
Wählen Sie im Abschnitt Erste Schritte Ihre Domain aus, nachdem Sie den Abwärtspfeil unter Domain auswählen erweitert haben.
Wählen Sie im Abschnitt Erste Schritte Ihr Benutzerprofil aus, nachdem Sie den Abwärtspfeil unter Benutzerprofil auswählen erweitert haben.
Wählen Sie Studio öffnen, um die Landingpage für Studio zu öffnen.
Wählen Sie im Navigationsbereich Jobs aus.

Um einen Evaluierungsjob einzurichten

Wählen Sie auf der Startseite der Modellevaluierung die Option Modell evaluieren
Geben Sie die Jobdetails an.
1. Geben Sie den Bewertungsnamen Ihrer Modellevaluierung ein. Anhand dieses Namens können Sie Ihre Modellevaluierungsstelle nach der Einreichung leichter identifizieren.
2. Geben Sie eine Beschreibung ein, um dem Namen mehr Kontext hinzuzufügen.
3. Wählen Sie Weiter.
Richten Sie die Bewertung ein
1. Wählen Sie unter Bewertungstyp auswählen das Optionsfeld neben Mensch aus.
2. Wählen Sie unter Wählen Sie die Modelle aus, die Sie evaluieren möchten die Option Modell zur Bewertung hinzufügen aus. Sie können für jede Bewertung bis zu zwei Modelle auswerten.
  1. Um ein vortrainiertes JumpStart Modell zu verwenden, wählen Sie Vortrainiertes Basismodell JumpStart . Wenn Sie ein JumpStart Modell verwenden möchten, das Sie zuvor auf einem Endpunkt bereitgestellt haben, wählen Sie Endpoints with JumpStart Foundation Models.
  2. Wenn für das Modell eine rechtliche Vereinbarung erforderlich ist, aktivieren Sie das Kontrollkästchen, um zu bestätigen, dass Sie damit einverstanden sind.
  3. Wenn Sie ein weiteres Modell hinzufügen möchten, wiederholen Sie den vorherigen Schritt.
3. Um das Verhalten des Modells bei der Inferenz zu ändern, wählen Sie Parameter festlegen.
  
  Parameter festlegen enthält eine Liste von Inferenzparametern, die den Grad der Zufälligkeit in der Ausgabe Ihres Modells, die Länge der Ausgabe Ihres Modells und die Wörter, die das Modell als Nächstes wählt, beeinflussen.
4. Wählen Sie als Nächstes einen Aufgabentyp aus. Sie können eine der folgenden Optionen auswählen:
  - Zusammenfassung des Textes
  - Beantwortung von Fragen (Q&A)
  - Klassifizierung von Texten
  - Generierung mit offenem Ende
  - Custom (Benutzerdefiniert)
5. Wählen Sie im Abschnitt Bewertungskennzahlen eine Bewertungsdimension aus und geben Sie zusätzlichen Kontext zu der Dimension in das Textfeld unter Beschreibung ein. Sie können aus den folgenden Dimensionen wählen:
  - Sprachkompetenz — Misst die sprachliche Qualität eines generierten Textes.
  - Kohärenz — Misst die Organisation und Struktur eines generierten Textes.
  - Toxizität — Misst die Schädlichkeit eines generierten Textes.
  - Genauigkeit — Gibt die Genauigkeit eines generierten Textes an.
  - Eine benutzerdefinierte Bewertungsdimension, deren Namen und Beschreibung Sie für Ihr Arbeitsteam definieren können.
    
    Gehen Sie wie folgt vor, um eine benutzerdefinierte Bewertungsdimension hinzuzufügen:
    Wählen Sie Bewertungsdimension hinzufügen aus.
    
    Geben Sie in das Textfeld Bewertungsdimension bereitstellen den Namen Ihrer benutzerdefinierten Dimension ein.
    
    Geben Sie in das Textfeld „Beschreibung für diese Bewertungsdimension angeben“ eine Beschreibung ein, damit Ihr Arbeitsteam versteht, wie Ihre benutzerdefinierte Dimension bewertet werden soll.
  Unter jeder dieser Kennzahlen befinden sich Berichtskennzahlen, die Sie über den Abwärtspfeil Metriktyp auswählen auswählen können. Wenn Sie zwei Modelle auswerten müssen, können Sie entweder Vergleichskennzahlen oder einzelne Berichtskennzahlen wählen. Wenn Sie ein Modell auswerten müssen, können Sie nur einzelne Berichtskennzahlen auswählen. Sie können für jede der oben genannten Kennzahlen die folgenden Typen von Berichtskennzahlen wählen.
  - (Vergleichende) Likert-Skala — Vergleich — Ein menschlicher Gutachter gibt auf einer 5-Punkte-Likert-Skala gemäß Ihren Anweisungen seine Präferenz zwischen zwei Antworten an. Die Ergebnisse im Abschlussbericht werden als Histogramm der Präferenzbewertungen der Bewerter für Ihren gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Gutachter wissen, wie sie die Antworten Ihren Erwartungen entsprechend bewerten können. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als ComparisonLikertScale Schlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonLikertScale".
  - Auswahlschaltflächen (zum Vergleich) — Ermöglicht es einem menschlichen Gutachter, seine eine Antwort gegenüber einer anderen Antwort vorzuziehen. Die Gutachter geben anhand von Optionsfeldern an, ob sie zwei Antworten gemäß Ihren Anweisungen bevorzugen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Antworten ausgewiesen, die die Mitarbeiter für jedes Modell bevorzugt haben. Erläutern Sie Ihre Bewertungsmethode in Ihren Anweisungen klar und deutlich. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als ComparisonChoice Schlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonChoice".
  - (Vergleichender) Ordinalrang — Ermöglicht es einem menschlichen Gutachter, seine bevorzugten Antworten auf eine Aufforderung in der Reihenfolge, beginnend mit1, gemäß Ihren Anweisungen zu ordnen. Die Ergebnisse im Abschlussbericht werden als Histogramm der Bewertungen der Bewerter für den gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen, was eine Rangfolge 1 bedeutet. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als ComparisonRank Schlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonRank".
  - (Individuell) Daumen hoch/runter — Ermöglicht es einem menschlichen Gutachter, jede Antwort eines Modells gemäß Ihren Anweisungen als akzeptabel oder inakzeptabel zu bewerten. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Gesamtzahl der abgegebenen Bewertungen ausgewiesen, die für jedes Modell eine positive Bewertung (Daumen hoch) erhalten haben. Sie können diese Bewertungsmethode für die Auswertung eines oder mehrerer Modelle verwenden. Wenn Sie dies in einer Bewertung verwenden, die zwei Modelle umfasst, wird Ihrem Arbeitsteam für jede Modellantwort ein „Daumen hoch“ oder „Daumen runter“ angezeigt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln angezeigt. Definieren Sie in Ihren Anweisungen, was als Bewertung „Daumen hoch“ oder „Daumen runter“ zulässig ist. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als ThumbsUpDown Schlüssel-Wert-Paar dargestellt"evaluationResults":"ThumbsUpDown".
  - (Individuell) Likert-Skala — individuell — Ermöglicht es einem menschlichen Gutachter, anhand Ihrer Anweisungen anhand einer 5-Punkte-Likert-Skala anzugeben, wie sehr er die Antwort des Modells befürwortet. Die Ergebnisse im Abschlussbericht werden als Histogramm der 5-Punkte-Bewertungen der Gutachter für Ihren gesamten Datensatz angezeigt. Sie können diese Skala für eine Bewertung verwenden, die ein oder mehrere Modelle umfasst. Wenn Sie diese Bewertungsmethode in einer Bewertung wählen, die mehr als ein Modell umfasst, wird Ihrem Arbeitsteam für jede Modellantwort eine 5-Punkte-Likert-Skala vorgelegt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte auf der 5-Punkte-Skala, damit Ihre Gutachter wissen, wie sie die Antworten entsprechend Ihren Erwartungen bewerten können. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als IndividualLikertScale Schlüssel-Wert-Paar dargestellt"evaluationResults":"IndividualLikertScale".
6. Wählen Sie einen Prompt-Datensatz aus. Dieser Datensatz ist erforderlich und wird von Ihrem menschlichen Arbeitsteam verwendet, um die Antworten aus Ihrem Modell auszuwerten. Geben Sie den S3-URI für einen Amazon S3 S3-Bucket an, der Ihren Prompt-Datensatz im Textfeld unter S3-URI für Ihre Eingabedatensatzdatei enthält. Ihr Datensatz muss jsonlines formatiert sein und die folgenden Schlüssel enthalten, um zu identifizieren, welche Teile Ihres Datensatzes die Benutzeroberfläche zur Bewertung Ihres Modells verwenden wird:
  - prompt— Die Anfrage, auf die Ihr Modell eine Antwort generieren soll.
  - (Optional) category — — Die Kategoriebezeichnungen für Ihre Aufforderung. Der category Schlüssel wird verwendet, um Ihre Eingabeaufforderungen zu kategorisieren, sodass Sie Ihre Bewertungsergebnisse später nach Kategorien filtern können, um ein tieferes Verständnis der Bewertungsergebnisse zu erhalten. Es ist nicht an der Bewertung selbst beteiligt, und die Mitarbeiter sehen es nicht auf der Evaluationsoberfläche.
  - (Optional) referenceResponse — Die Referenzantwort für Ihre menschlichen Gutachter. Die Referenzantwort wird von Ihren Mitarbeitern nicht bewertet, kann aber anhand Ihrer Anweisungen dazu verwendet werden, herauszufinden, welche Antworten akzeptabel oder inakzeptabel sind.
  - (Optional) responses — Wird verwendet, um Schlussfolgerungen aus einem Modell außerhalb von SageMaker KI oder außerhalb von AWS zu spezifizieren.
    
    Für dieses Objekt sind zwei zusätzliche Schlüssel-Wert-Paare erforderlich. Dabei "modelIdentifier handelt es sich um eine Zeichenfolge, die das Modell identifiziert, und "text" um die Inferenz des Modells.
    
    Wenn Sie in einer Eingabe des benutzerdefinierten Prompt-Datensatzes einen "responses" Schlüssel angeben, muss er in allen Eingaben angegeben werden.
  - Das folgende json Codebeispiel zeigt die akzeptierten Schlüssel-Wert-Paare in einem benutzerdefinierten Prompt-Datensatz. Das Kontrollkästchen Bring your own inference muss aktiviert sein, wenn ein Antwortschlüssel angegeben wird. Wenn diese Option aktiviert ist, muss der responses Schlüssel immer in jeder Eingabeaufforderung angegeben werden. Das folgende Beispiel könnte in einem Frage-und-Antwort-Szenario verwendet werden.
```
{
    "prompt": {
        "text": "Aurillac is the capital of"
    },
    "category": "Capitals",
    "referenceResponse": {
        "text": "Cantal"
    },
    "responses": [
        // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required.
        {
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",
            "text": "The capital of Aurillac is Cantal."
        }
    ]
}
```
7. Geben Sie in das Textfeld unter Wählen Sie einen S3-Speicherort zum Speichern Ihrer Bewertungsergebnisse einen S3-Bucket-Speicherort ein, an dem Sie die ausgegebenen Bewertungsergebnisse speichern möchten. Die Ausgabedatei, die an diesen S3-Speicherort geschrieben wird, hat JSON ein Format, das mit der Erweiterung, endet.json.
8. Anmerkung
  Wenn Sie Ihre eigenen Inferenzdaten in die Modellevaluierung einbeziehen möchten, können Sie nur ein einziges Modell verwenden.
  
  (Optional) Aktivieren Sie das Kontrollkästchen unter Bring your own inference, um anzugeben, dass Ihr Prompt-Datensatz den responses Schlüssel enthält. Wenn Sie den responses Schlüssel als Teil einer Eingabeaufforderung angeben, muss er in allen Eingabeaufforderungen enthalten sein.
9. Konfigurieren Sie Ihren Prozessor im Abschnitt Prozessorkonfiguration mit den folgenden Parametern:
  - Verwenden Sie die Anzahl der Instanzen, um die Anzahl der Recheninstanzen anzugeben, die für die Ausführung Ihres Modells verwendet werden sollen. Wenn Sie mehr als eine 1 Instanz verwenden, wird Ihr Modell in parallel Instanzen ausgeführt.
  - Verwenden Sie den Instanztyp, um die Art der Recheninstanz auszuwählen, die Sie zur Ausführung Ihres Modells verwenden möchten. AWS verfügt über allgemeine Recheninstanzen und Instanzen, die für Datenverarbeitung und Arbeitsspeicher optimiert sind. Weitere Informationen zu Instance-Typen finden Sie unterInstance-Typen, die für die Verwendung mit Studio Classic verfügbar sind.
  - Wenn Sie möchten, dass SageMaker KI anstelle des standardmäßigen AWS Managed Service-Schlüssels Ihren eigenen Verschlüsselungsschlüssel AWS Key Management Service (AWS KMS) verwendet, wählen Sie unter Volume-KMS-Schlüssel die Option On aus und geben Sie den AWS KMS Schlüssel ein. SageMaker KI verwendet Ihren AWS KMS Schlüssel, um Daten auf dem Speichervolume zu verschlüsseln. Weitere Informationen zu Schlüsseln finden Sie unter AWS Key Management Service.
  - Wenn Sie möchten, dass SageMaker KI anstelle des standardmäßigen AWS Managed Service-Schlüssels Ihren eigenen Verschlüsselungsschlüssel AWS Key Management Service (AWS KMS) verwendet, wählen Sie unter KMS-Ausgabeschlüssel die Option Ein und geben Sie den AWS KMS Schlüssel ein. SageMaker KI verwendet Ihren AWS KMS Schlüssel, um die Ausgabe des Verarbeitungsauftrags zu verschlüsseln.
  - Verwenden Sie eine IAM-Rolle, um den Zugriff und die Berechtigungen für den Standardprozessor anzugeben. Geben Sie die IAM-Rolle ein, die Sie im Abschnitt Richten Sie Ihre IAM-Rolle in diesem Abschnitt Eine menschliche Bewertung ausführen eingerichtet haben.
10. Nachdem Sie Ihr Modell und Ihre Kriterien angegeben haben, wählen Sie Weiter aus.

Ihr Arbeitsteam besteht aus den Personen, die Ihr Modell evaluieren. Nachdem Ihr Arbeitsteam erstellt wurde, bleibt es auf unbestimmte Zeit bestehen und Sie können seine Eigenschaften nicht ändern. Im Folgenden wird gezeigt, wie Sie mit Ihrem Arbeitsteam beginnen können.

Richten Sie Ihr Arbeitsteam ein

Wählen Sie im Eingabefeld Team auswählen ein vorhandenes Team aus oder erstellen Sie ein neues Team.
Geben Sie im Feld Name der Organisation einen Namen Ihrer Organisation ein. Dieses Feld wird nur angezeigt, wenn Sie das erste Arbeitsteam im Konto erstellen.
Geben Sie eine Kontakt-E-Mail an. Ihre Mitarbeiter werden diese E-Mail verwenden, um mit Ihnen über die Bewertungsaufgabe zu kommunizieren, die Sie ihnen stellen werden. Dieses Feld wird nur angezeigt, wenn Sie das erste Arbeitsteam im Konto erstellen.
Geben Sie einen Teamnamen an. Sie können diesen Namen später nicht ändern.
Geben Sie eine Liste mit E-Mail-Adressen für jeden Ihrer Mitarbeiter an, die Ihr Large Language Model (LLM) evaluieren werden. Wenn Sie die E-Mail-Adressen für Ihr Team angeben, werden diese nur dann über einen neuen Job informiert, wenn sie neu zu einem Arbeitsteam hinzugefügt werden. Wenn Sie dasselbe Team für einen nachfolgenden Job verwenden, müssen Sie es manuell benachrichtigen.
Geben Sie dann die Anzahl der Mitarbeiter pro Aufforderung an

Geben Sie Anweisungen für Ihr Arbeitsteam

Stellen Sie Ihrer Belegschaft detaillierte Anweisungen zur Verfügung, damit sie Ihr Modell anhand Ihrer Kennzahlen und Standards bewerten können. Eine Vorlage im Hauptfenster enthält Beispielanweisungen, die Sie bereitstellen können. Weitere Informationen zum Erteilen von Anweisungen finden Sie unter Gute Anweisungen für Mitarbeiter erstellen.
Um Verzerrungen bei der Bewertung durch den Menschen so gering wie möglich zu halten, aktivieren Sie das Kontrollkästchen neben Positionen der Antwortvariablen nach dem Zufallsprinzip auswählen.
Klicken Sie auf Weiter.

Sie können sich die Zusammenfassung der Auswahlen ansehen, die Sie für Ihre menschliche Tätigkeit getroffen haben. Wenn Sie Ihren Job ändern müssen, wählen Sie Zurück, um zu einer früheren Auswahl zurückzukehren.

Reichen Sie Ihre Stellenbewertungsanfrage ein und sehen Sie sich den Auftragsfortschritt an

Um Ihre Bewertungsanfrage einzureichen, wählen Sie Ressource erstellen.
Um den Status all Ihrer Jobs zu sehen, wählen Sie im Navigationsbereich Jobs aus. Wählen Sie dann Modellevaluierung aus. Der Evaluierungsstatus wird als Abgeschlossen, Fehlgeschlagen oder In Bearbeitung angezeigt.

Folgendes wird ebenfalls angezeigt:
- Beispielnotizbücher zur Durchführung einer Modellevaluierung in SageMaker KI und Amazon Bedrock.
- Links zu zusätzlichen Informationen wie Dokumentation, Videos, Neuigkeiten und Blogs über den Modellevaluierungsprozess.
- Die URL zu Ihrem Privatarbeiterportal ist ebenfalls verfügbar.
Wählen Sie unter Name Ihre Modellevaluierung aus, um eine Zusammenfassung Ihrer Bewertung anzuzeigen.
- Die Zusammenfassung enthält Informationen über den Status des Jobs, welche Art von Bewertungsaufgabe Sie für welches Modell ausgeführt haben und wann sie ausgeführt wurde. Im Anschluss an die Zusammenfassung werden die Ergebnisse der menschlichen Bewertung sortiert und nach Metriken zusammengefasst.

Sehen Sie sich das Zeugnis Ihres Model-Evaluierungsjobs an, bei dem menschliche Arbeitskräfte eingesetzt werden

Um den Bericht für Ihre Jobs anzuzeigen, wählen Sie im Navigationsbereich Jobs aus.
Wählen Sie dann Modellevaluierung aus. Suchen Sie auf der Startseite der Modellevaluationen anhand der Tabelle nach Ihrem Job zur Modellevaluierung. Sobald sich der Status des Jobs auf Abgeschlossen geändert hat, können Sie Ihr Zeugnis einsehen.
Wählen Sie den Namen des Auftrags zur Modellevaluierung auf seinem Zeugnis aus.

Wenn Sie einen Modellevaluierungsjob erstellen, bei dem menschliche Mitarbeiter verwendet werden, haben Sie die Möglichkeit, Ihre eigenen Inferenzdaten mitzubringen und Ihre Mitarbeiter diese Inferenzdaten mit Daten vergleichen zu lassen, die von einem anderen JumpStart Modell oder einem Modell erzeugt wurden, das Sie auf einem JumpStart Endpunkt bereitgestellt haben.

In diesem Thema wird das für die Inferenzdaten erforderliche Format sowie ein vereinfachtes Verfahren beschrieben, wie Sie diese Daten zu Ihrem Modellevaluierungsjob hinzufügen können.

Wählen Sie einen Prompt-Datensatz aus. Dieser Datensatz ist erforderlich und wird von Ihrem menschlichen Arbeitsteam verwendet, um die Antworten aus Ihrem Modell auszuwerten. Geben Sie die S3-URI für einen Amazon S3 S3-Bucket, der Ihren Prompt-Datensatz enthält, in das Textfeld unter Wählen Sie einen S3-Standort, um Ihre Evaluierungsergebnisse zu speichern, ein. Ihr Datensatz muss das .jsonl Format haben. Jeder Datensatz muss ein gültiges JSON-Objekt sein und die folgenden erforderlichen Schlüssel enthalten:

prompt— Ein JSON-Objekt, das den Text enthält, der an das Modell übergeben werden soll.
(Optional) category — — Die Kategoriebezeichnungen für Ihre Eingabeaufforderung. Der category Schlüssel wird verwendet, um Ihre Eingabeaufforderungen zu kategorisieren, sodass Sie Ihre Bewertungsergebnisse später nach Kategorien filtern können, um ein tieferes Verständnis der Bewertungsergebnisse zu erhalten. Es ist nicht an der Bewertung selbst beteiligt, und die Mitarbeiter sehen es nicht auf der Evaluationsoberfläche.
(Optional) referenceResponse — ein JSON-Objekt, das die Referenzantwort für Ihre menschlichen Gutachter enthält. Die Referenzantwort wird von Ihren Mitarbeitern nicht bewertet, kann aber anhand Ihrer Anweisungen verwendet werden, um zu verstehen, welche Antworten akzeptabel oder inakzeptabel sind.
responses— Wird verwendet, um individuelle Schlussfolgerungen aus einem Modell außerhalb von SageMaker KI oder außerhalb von AWS zu spezifizieren.

Für dieses Objekt sind zwei zusätzliche Schlüssel-Wert-Paare "modelIdentifier erforderlich. Dabei handelt es sich um eine Zeichenfolge, die das Modell identifiziert, und "text" bei der es sich um die Inferenz des Modells handelt.

Wenn Sie in einer Eingabe des benutzerdefinierten Prompt-Datensatzes einen "responses" Schlüssel angeben, muss er in allen Eingaben angegeben werden.

Das folgende json Codebeispiel zeigt die akzeptierten Schlüssel-Wert-Paare in einem benutzerdefinierten Prompt-Dataset, das Ihre eigenen Inferenzdaten enthält.


{
    "prompt": {
        "text": "Who invented the airplane?"
    },
    "category": "Airplanes",
    "referenceResponse": {
        "text": "Orville and Wilbur Wright"
    },
    "responses":
        // All inference must come from a single model
        [{
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
        }]

}

Starten Sie zunächst Studio und wählen Sie in der Hauptnavigation unter Jobs die Option Modellevaluierung aus.

Um Ihre eigenen Inferenzdaten zu einem Job zur Bewertung eines menschlichen Modells hinzuzufügen.

Fügen Sie in Schritt 1: Jobdetails angeben den Namen Ihres Jobs zur Modellbewertung und eine optionale Beschreibung hinzu.
Wählen Sie in Schritt 2: Bewertung einrichten die Option Mensch aus.
Als Nächstes können Sie unter Modell (e) auswählen, das Sie evaluieren möchten, das Modell auswählen, das Sie verwenden möchten. Sie können entweder ein JumpStart Modell verwenden, das bereits bereitgestellt wurde, oder Sie können ein vorab trainiertes Jumpstart-Foundation-Modell wählen.
Wählen Sie dann einen Aufgabentyp aus.
Als Nächstes können Sie Bewertungsmetriken hinzufügen.
Aktivieren Sie anschließend unter Prompt-Datensatz das Kontrollkästchen Bring your own inference, um anzugeben, dass Ihre Eingabeaufforderungen Antwortschlüssel enthalten.
Fahren Sie dann mit der Einrichtung Ihres Jobs zur Modellbewertung fort.

Weitere Informationen darüber, wie die Antworten aus Ihrem Modellevaluierungsjob, bei dem menschliche Mitarbeiter eingesetzt werden, gespeichert werden, finden Sie unter Machen Sie sich mit den Ergebnissen einer menschlichen Evaluierungsaufgabe vertraut

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Toxizität

Automatische Modellevaluierung