

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Erstellen eines automatischen Auftrags zur Modellbewertung in Amazon Bedrock
<a name="evaluation-automatic"></a>

Das Thema enthält detaillierte Anweisungen zum Erstellen eines automatischen Auftrags zur Modellbewertung.

**Topics**
+ [Erforderliche Schritte vor der Erstellung Ihres ersten Auftrags zur automatischen Modellbewertung](model-evaluation-type-automatic.md)
+ [Aufgabentypen zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks.md)
+ [Verwenden von Prompt-Datensätzen für die Modellbewertung in Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Starten eines automatischen Auftrags zur Modellbewertung in Amazon Bedrock](model-evaluation-jobs-management-create.md)
+ [Auflisten von Aufträgen zur automatischen Modellbewertung in Amazon Bedrock](model-evaluation-jobs-management-list.md)
+ [Beenden eines Auftrags zur Modellbewertung in Amazon Bedrock](model-evaluation-jobs-management-stop.md)
+ [Löschen eines Auftrags zur Modellbewertung in Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# Erforderliche Schritte vor der Erstellung Ihres ersten Auftrags zur automatischen Modellbewertung
<a name="model-evaluation-type-automatic"></a>

Aufträge zur automatischen Modellbewertung erfordern Zugriff auf die folgenden Service-Level-Ressourcen. In den verlinkten Themen erfahren Sie mehr über die Einrichtung.

**Cross Origin Resource Sharing (CORS)-Berechtigungsanforderungen**  
Für alle konsolenbasierten Modellbewertungsaufträge müssen Cross Origin Resource Sharing (CORS)-Berechtigungen für alle Amazon-S3-Buckets aktiviert sein, die im Modellbewertungsauftrag angegeben sind. Weitere Informationen hierzu finden Sie unter [Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets](model-evaluation-security-cors.md).

**Erforderliche Service-Level-Ressourcen zum Starten eines Auftrags zur automatischen Modellbewertung**

1. Zum Starten eines Auftrags zur automatischen Modellbewertung benötigen Sie Zugriff auf mindestens ein Amazon-Bedrock-Basismodell. Weitere Informationen hierzu finden Sie unter [Zugriff auf Amazon-Bedrock-Basismodelle](model-access.md).

1. Um einen automatischen Modellevaluierungsjob zu erstellen, benötigen Sie Zugriff auf das [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) AWS Command Line Interface, oder ein unterstütztes AWS SDK. Weitere Informationen zu den erforderlichen IAM-Aktionen und -Ressourcen finden Sie unter [Erforderliche Konsolenberechtigungen zum Erstellen eines Auftrags zur automatischen Modellbewertung](#base-for-automatic).

1. Wenn der Auftrag zur Modellbewertung beginnt, wird eine Servicerolle verwendet, um Aktionen in Ihrem Namen auszuführen. Weitere Informationen über die erforderlichen IAM-Aktionen und Anforderungen an die Vertrauensrichtlinie finden Sie unter [Anforderungen an die Servicerolle für automatische Aufträge zur Modellbewertung](automatic-service-roles.md).

1. Amazon Simple Storage Service — Alle verwendeten und generierten Daten müssen in einem Amazon S3 S3-Bucket platziert werden, der sich AWS-Region in einem automatischen Modellevaluierungsjob im selben befindet.

1. Cross Origin Resource Sharing (CORS) – Aufträge zur automatischen Modellbewertung, die mit der Amazon-Bedrock-Konsole erstellt werden, erfordern die Angabe einer CORS-Konfiguration im S3-Bucket. Weitere Informationen hierzu finden Sie unter [Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets](model-evaluation-security-cors.md).

1. Eine IAM-Servicerolle – Erstellen Sie eine Servicerolle an, um einen Auftrag zur automatischen Modellbewertung zu erstellen. Die Servicerolle ermöglicht es Amazon Bedrock, in Ihrem Namen Aktionen in Ihrem AWS Konto durchzuführen. Weitere Informationen hierzu finden Sie unter [Anforderungen an die Servicerolle für automatische Aufträge zur Modellbewertung](automatic-service-roles.md). 

## Erforderliche Konsolenberechtigungen zum Erstellen eines Auftrags zur automatischen Modellbewertung
<a name="base-for-automatic"></a>

Die folgende Richtlinie enthält die Mindestanzahl an IAM-Aktionen und Ressourcen in Amazon Bedrock und Amazon S3, die zur Erstellung eines Auftrags zur *automatischen* Modellbewertung mit der Amazon-Bedrock-Konsole erforderlich sind.

Wir empfehlen, in der Richtlinie das IAM-JSON-Richtlinienelement [Ressource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) zu verwenden, um den Zugriff nur auf die Modelle und Buckets zu beschränken, die für den IAM-Benutzer, die Gruppe oder die Rolle erforderlich sind.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Aufgabentypen zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.


**Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Allgemeine Textgenerierung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Textzusammenfassung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Frage und Antwort zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Textklassifizierung für die Modellbewertung in Amazon Bedrock](model-evaluation-text-classification.md)

# Allgemeine Textgenerierung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

Die allgemeine Textgenerierung ist eine Aufgabe, die von Anwendungen mit integrierten Chatbots verwendet wird. Die Antworten, die ein Modell auf allgemeine Fragen generiert, sind von der Richtigkeit, Relevanz und des Bias des Textes abhängig, der zum Trainieren des Modells verwendet wird.

**Wichtig**  
Bei der allgemeinen Textgenerierung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze enthalten Eingabeaufforderungen, die sich gut für allgemeine Textgenerierungsaufgaben eignen.

**Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD)**  
Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

**RealToxicityPrompts**  
RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100 000 verschiedene Eingabeaufforderungen zur Textgenerierung.

**T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX)**  
TREX ist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensdarstellung verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

**WikiText2**  
WikiText2 ist ein HuggingFace-Datensatz mit Eingabeaufforderungen, die bei der allgemeinen Textgenerierung verwendet werden.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen, die für automatische Aufträge zur Modellbewertung verfügbar sind. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.


**Verfügbare integrierte Datensätze für die allgemeine Textgenerierung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Textzusammenfassung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

Die Textzusammenfassung wird für Aufgaben wie das Erstellen von Zusammenfassungen von Nachrichten, Rechtsdokumenten, wissenschaftlichen Arbeiten, Inhaltsvorschauen und die Kuratierung von Inhalten verwendet. Mehrdeutigkeit, Kohärenz, Bias und Fließfähigkeit des zum Trainieren des Modells verwendeten Textes sowie Informationsverlust, Genauigkeit, Relevanz oder Kontextinkongruenz können die Qualität der Antworten beeinflussen.

**Wichtig**  
Bei der Textzusammenfassung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp Textzusammenfassung empfohlen.

**Gigaword**  
Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.


**Verfügbare integrierte Datensätze für die Textzusammenfassung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Frage und Antwort zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Frage und Antwort wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. Wenn der für das Training des Basismodells verwendete Text Probleme wie unvollständige oder ungenaue Daten, Sarkasmus oder Ironie enthält, kann sich die Qualität der Antworten verschlechtern.

**Wichtig**  
Bei Frage und Antwort besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp „Frage und Antwort“ empfohlen.

**BoolQ**  
BoolQ ist ein Datensatz, der aus yes/no Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

**Natural Questions**  
Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.

**TriviaQA**  
TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Um die verfügbaren integrierten Datensätze mit dem oder einem unterstützten AWS SDK erfolgreich zu spezifizieren AWS CLI, verwenden Sie die Parameternamen in der Spalte *Integrierte* Datensätze (API).


**Verfügbare integrierte Datensätze für den Aufgabentyp „Frage und Antwort“ in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Textklassifizierung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

Die Textklassifizierung wird verwendet, um Text in vordefinierte Kategorien zu einzuteilen. Zu den Anwendungen, die Textklassifizierung verwenden, gehören Inhaltsempfehlungen, Spam-Erkennung, Spracherkennung und Trendanalysen in sozialen Medien. Unausgewogene Klassen, mehrdeutige Daten, verrauschte Daten und Bias bei der Kennzeichnung sind einige Probleme, die zu Fehlern bei der Textklassifizierung führen können.

**Wichtig**  
Bei der Textklassifizierung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp „Textklassifizierung“ empfohlen.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet. 

In der folgenden Tabelle werden die berechneten Metriken und die empfohlenen integrierten Datensätze zusammengefasst. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.




**Verfügbare integrierte Datensätze in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-text-classification.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Verwenden von Prompt-Datensätzen für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

Geben Sie einen Prompt-Datensatz an, um einen Auftrag zur automatischen Modellbewertung zu erstellen. Die Prompts werden dann bei der Inferenz mit dem Modell verwendet, das Sie für die Bewertung auswählen. Amazon Bedrock bietet integrierte Datensätze, die für automatische Modellbewertungen verwendet werden können. Alternativ können Sie Ihren eigenen Prompt-Datensatz mitbringen.

In den folgenden Abschnitten erfahren Sie mehr über die verfügbaren integrierten Prompt-Datensätze und die Erstellung von benutzerdefinierten Prompt-Datensätzen.

## Verwenden integrierter Prompt-Datensätze für Aufträge zur automatischen Modellbewertung in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock bietet mehrere integrierte Prompt-Datensätze, die Sie in einem automatischen Auftrag zur Modellbewertung verwenden können. Jeder integrierte Datensatz basiert auf einem Open-Source-Datensatz. Wir haben die einzelnen Open-Source-Datensätze zufällig heruntergerechnet, damit sie nur 100 Prompts enthalten.

Wenn Sie einen automatischen Auftrag zur Modellbewertung erstellen und einen **Aufgabentyp** auswählen, stellt Ihnen Amazon Bedrock eine Liste mit empfohlenen Metriken zur Verfügung. Für jede Metrik bietet Amazon Bedrock auch empfohlene integrierte Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen finden Sie unter [Aufgabentypen zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks.md).

**Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD)**  
Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

**RealToxicityPrompts**  
RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100 000 verschiedene Eingabeaufforderungen zur Textgenerierung.

**T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX)**  
TREX ist ein Datensatz, der aus der Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensrepräsentation verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

**WikiText2**  
WikiText2 ist ein HuggingFace Datensatz, der Eingabeaufforderungen enthält, die bei der allgemeinen Textgenerierung verwendet werden.

**Gigaword**  
Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.

**BoolQ**  
BoolQ ist ein Datensatz, der aus yes/no Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

**Natural Questions **  
Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.

**TriviaQA**  
TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet. 

In der folgenden Tabelle sehen Sie die Liste der verfügbaren Datensätze, gruppiert nach Aufgabentyp. Weitere Informationen zur Berechnung von automatischen Metriken finden Sie unter [Überprüfen von Metriken für einen Auftrag zur automatisierten Modellbewertung in Amazon Bedrock (Konsole)](model-evaluation-report-programmatic.md). 


**Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Weitere Informationen zu den Anforderungen für die Erstellung und Beispiele von Datensätzen für benutzerdefinierte Eingabeaufforderungen finden Sie unter [Verwenden eines benutzerdefinierten Prompt-Datensatzes für die Modellbewertung in Amazon Bedrock](#model-evaluation-prompt-datasets-custom).

## Verwenden eines benutzerdefinierten Prompt-Datensatzes für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

Sie können bei Aufträgen zur automatischen Modellbewertung einen benutzerdefinierten Prompt-Datensatz erstellen. Datensätze mit benutzerdefinierten Eingabeaufforderungen müssen in Amazon S3 gespeichert werden und das JSON-Zeilenformat und die `.jsonl`-Dateierweiterung verwenden. Jede Zeile muss ein gültiges JSON-Objekt sein. Ihr Datensatz kann bis zu 1000 Eingabeaufforderungen pro automatischem Bewertungsauftrag enthalten.

Für einen Auftrag, der mit der Konsole erstellt wurde, müssen Sie die Cross Origin Resource Sharing (CORS)-Konfiguration im S3-Bucket aktualisieren. Verwenden Sie [Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets](model-evaluation-security-cors.md), um mehr über die für diese Rolle erforderlichen CORS-Berechtigungen zu erfahren. 

Sie müssen die folgenden Schlüssel-Wert-Paare in einem benutzerdefinierten Datensatz verwenden.
+ `prompt`: Erforderlich, um die Eingabe für die folgenden Aufgaben anzugeben:
  + Die Eingabeaufforderung, auf die Ihr Modell bei der allgemeinen Textgenerierung reagieren sollte.
  + Die Frage, die Ihr Modell im Aufgabentyp „Frage und Antwort“ beantworten soll.
  + Der Text, den Ihr Modell in der Textzusammenfassungsaufgabe zusammenfassen soll.
  + Der Text, den Ihr Modell in Klassifizierungsaufgaben klassifizieren soll.
+ `referenceResponse`: Erforderlich, um die Ground-Truth-Antwort anzugeben, anhand derer Ihr Modell für die folgenden Aufgabentypen bewertet wird:
  + Die Antwort auf alle Eingabeaufforderungen in Frage- und Antwort-Aufgaben.
  + Die Antwort für alle Genauigkeits- und Robustheitsbewertungen.
+ `category`: (Optional) Generiert Bewertungsergebnisse für die einzelnen Kategorien. 

Für eine hohe Genauigkeit sind sowohl die zu stellende Frage als auch eine Antwort erforderlich, mit der die Antwort des Modells verglichen werden muss. Verwenden Sie in diesem Beispiel wie folgt den Schlüssel `prompt` mit dem in der Frage enthaltenen Wert und den Schlüssel `referenceResponse` mit dem in der Antwort enthaltenen Wert.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

Das vorherige Beispiel ist eine einzelne Zeile einer JSON-Zeilen-Eingabedatei, die als Inferenzanforderung an Ihr Modell gesendet wird. Das Modell wird für all diese Datensätze in Ihrem JSON-Zeilen-Datensatz aufgerufen. Das folgende Beispiel für eine Dateneingabe bezieht sich auf eine Frage-Antwort-Aufgabe, bei der ein optionaler `category`-Schlüssel zur Bewertung verwendet wird.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Starten eines automatischen Auftrags zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-jobs-management-create"></a>

Sie können einen automatischen Modellevaluierungsjob mit dem AWS-Managementkonsole AWS CLI, oder einem unterstützten AWS SDK erstellen. Bei einem automatischen Modellbewertungsauftrag führt das von Ihnen ausgewählte Modell Inferenzen durch, indem es entweder Prompts aus einem unterstützten integrierten Datensatz oder Ihren eigenen benutzerdefinierten Prompt-Datensatz verwendet. Für jeden Auftrag müssen Sie außerdem einen Aufgabentyp auswählen. Der Aufgabentyp bietet Ihnen einige empfohlene Metriken und integrierte Prompt-Datensätze. Weitere Informationen zu den verfügbaren Aufgabentypen und Metriken finden Sie unter [Aufgabentypen zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks.md).

Die folgenden Beispiele zeigen Ihnen, wie Sie mithilfe der Amazon Bedrock-Konsole, SDK für Python AWS CLI, einen automatischen Modellevaluierungsauftrag erstellen.

Alle automatischen Modellbewertungsaufträge erfordern, dass Sie eine IAM-Servicerolle erstellen. Weitere Informationen zu den IAM-Anfragen für das Einrichten eines Modellbewertungsauftrags finden Sie unter [Anforderungen an die Servicerolle für Aufträge zur Modellbewertung](model-evaluation-security-service-roles.md).

Die folgenden Beispiele veranschaulichen, wie Sie einen automatischen Modellbewertungsauftrag erstellen. In der API können Sie dem Auftrag auch ein [Inferenzprofil](cross-region-inference.md) hinzufügen, indem Sie dessen ARN im Feld `modelIdentifier` angeben.

------
#### [ Amazon Bedrock console ]

Gehen Sie wie folgt vor, um einen Modellbewertungsauftrag über die Amazon-Bedrock-Konsole zu erstellen. Stellen Sie zum erfolgreichen Abschluss dieses Verfahrens sicher, dass Ihr IAM-Benutzer, Ihre IAM-Gruppe bzw. -Rolle über die erforderlichen Berechtigungen für den Zugriff auf die Konsole verfügt. Weitere Informationen hierzu finden Sie unter [Erforderliche Konsolenberechtigungen zum Erstellen eines Auftrags zur automatischen Modellbewertung](model-evaluation-type-automatic.md#base-for-automatic). 

Außerdem müssen für alle Datensätze mit benutzerdefinierten Prompts, die Sie im Modellbewertungsauftrag angeben möchten, die erforderlichen CORS-Berechtigungen zum Amazon-S3-Bucket hinzugefügt werden. Weitere Informationen über das Hinzufügen der erforderlichen CORS-Berechtigungen finden Sie unter [Erforderliche Cross Origin Resource Sharing (CORS)-Berechtigungen für S3-Buckets](model-evaluation-security-cors.md).

**Erstellen eines automatischen Modellbewertungsauftrags**

1. Öffnen Sie die Amazon Bedrock-Konsole: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Klicken Sie im Navigationsbereich auf **Modelle**.

1. Wählen Sie auf der Karte **Eine Bewertung erstellen** unter **Automatisch** die Option **Automatische Bewertung erstellen**.

1. Geben Sie auf der Seite **Automatische Bewertung erstellen** die folgenden Informationen ein:

   1. **Bewertungsname**: Geben Sie dem Auftrag zur Modellbewertung einen Namen, der den Auftrag beschreibt. Dieser Name wird in der Liste Ihrer Aufträge zur Modellbewertung angezeigt. Der Name muss in Ihrem Konto in einer AWS-Region eindeutig sein.

   1. **Beschreibung** (optional): Geben Sie eine optionale Beschreibung ein.

   1. **Modelle**: Wählen Sie das Modell aus, das Sie bei der Modellbewertung verwenden möchten.

      Weitere Informationen zu den verfügbaren Modellen und den Zugriff darauf in Amazon Bedrock finden Sie unter [Zugriff auf Amazon-Bedrock-Basismodelle](model-access.md).

   1. **(Optional) Wählen Sie Aktualisieren**, um die Inferenzkonfiguration zu ändern.

      Durch eine Änderung der Inferenzkonfiguration werden die von den ausgewählten Modellen generierten Antworten geändert. Weitere Informationen zu den verfügbaren Inferenzparametern finden Sie unter [Inferenzanforderungsparameter und Antwortfelder für Basismodelle](model-parameters.md).

   1. **Aufgabentyp**: Wählen Sie den Aufgabentyp aus, den das Modell während des Auftrags zur Modellbewertung ausführen soll.

   1. **Metriken und Datensätze**: Die Liste der verfügbaren Metriken und der integrierten Prompt-Datensätze ändert sich je nach der ausgewählten Aufgabe. Sie können aus der Liste **Verfügbare integrierte Datensätze** oder „**Eigenen Prompt-Datensatz verwenden**“ wählen. Geben Sie für die Verwendung eines eigenen Prompt-Datensatzes den exakten S3-URI Ihrer Prompt-Datensatzdatei an oder wählen Sie **S3 durchsuchen** aus, um nach Ihrem Prompt-Datensatz zu suchen.

   1. **Bewertungsergebnisse** – Geben Sie den S3-URI des Verzeichnisses an, in dem die Ergebnisse gespeichert werden sollen. Wählen Sie **S3 durchsuchen** aus, um nach einem Speicherort in Amazon S3 zu suchen.

   1. Zum Verwenden eines kundenseitig verwalteten Schlüssels aktivieren Sie das Kontrollkästchen **Verschlüsselungseinstellungen anpassen (erweitert)**. Geben Sie dann den ARN des AWS KMS -Schlüssels an, den Sie verwenden möchten.

   1. **Amazon Bedrock IAM-Rolle** – Wählen Sie **Vorhandene Rolle verwenden** aus, um eine IAM-Servicerolle zu nutzen, die bereits über die erforderlichen Berechtigungen verfügt. Sie können auch **Neue Rolle erstellen** auswählen, um eine neue IAM-Servicerolle zu generieren.

1. Wählen Sie dann die Option **Erstellen**.

Sobald sich der Status **Abgeschlossen** ändert, können Sie den Bericht des Auftrags einsehen.

------
#### [ SDK for Python ]

Im folgenden Beispiel wird ein automatischer Bewertungsauftrag mit Python erstellt.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

In der können Sie den `help` Befehl verwenden AWS CLI, um zu sehen, welche Parameter erforderlich sind und welche Parameter optional sind, wenn Sie `create-evaluation-job` in der AWS CLI angeben.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Auflisten von Aufträgen zur automatischen Modellbewertung in Amazon Bedrock
<a name="model-evaluation-jobs-management-list"></a>

Sie können Ihre aktuellen Aufträge zur automatischen Modellbewertung auflisten, die Sie bereits mit der AWS CLI oder einem unterstützten AWS SDK erstellt haben. In der Amazon-Bedrock-Konsole können Sie auch eine Tabelle anzeigen, die Ihre aktuellen Aufträge zur Modellbewertung enthält.

Die folgenden Beispiele zeigen, wie Sie Ihre Aufträge zur Modellbewertung mit der AWS-Managementkonsole, der AWS CLI und dem SDK für Python suchen.

------
#### [ Amazon Bedrock console ]

1. Öffnen Sie die Amazon-Bedrock-Konsole unter: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home).

1. Klicken Sie im Navigationsbereich auf **Modelle**.

1. Auf der Karte **Modellbewertungsaufträge** finden Sie eine Tabelle, in der die Aufträge zur Modellbewertung aufgeführt sind, die Sie bereits erstellt haben.

------
#### [ AWS CLI ]

In der AWS CLI können Sie den Befehl `help` verwenden, um zu sehen, welche Parameter erforderlich und welche optional sind, wenn Sie `list-evaluation-jobs` nutzen.

```
aws bedrock list-evaluation-jobs help
```

Im Folgenden finden Sie ein Beispiel für die Verwendung von `list-evaluation-jobs` und die Angabe, dass maximal 5 Aufträge zurückgegeben werden sollen. Standardmäßig werden Aufträge in absteigender Reihenfolge ab dem Zeitpunkt zurückgegeben, zu dem sie gestartet wurden.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

Die folgenden Beispiele zeigen, wie Sie einen Auftrag zur Modellbewertung, den Sie zuvor erstellt haben, mit dem AWS SDK für Python suchen. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Beenden eines Auftrags zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-jobs-management-stop"></a>

Sie können einen Modellbewertungsauftrag, der gerade verarbeitet wird, mit der AWS-Managementkonsole, der AWS CLI oder einem unterstützten AWS SDK beenden.

Die folgenden Beispiele zeigen, wie Sie einen Auftrag zur Modellbewertung mit der AWS-Managementkonsole, der AWS CLI und dem SDK für Python beenden.

------
#### [ Amazon Bedrock console ]

Das folgende Beispiel zeigt, wie Sie einen Auftrag zur Modellbewertung über die AWS-Managementkonsole beenden können.

1. Öffnen Sie die Amazon-Bedrock-Konsole unter: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home).

1. Klicken Sie im Navigationsbereich auf **Modelle**.

1. Auf der Karte **Modellbewertungsaufträge** finden Sie eine Tabelle, in der die Aufträge zur Modellbewertung aufgeführt sind, die Sie bereits erstellt haben.

1. Wählen Sie das Optionsfeld neben dem gewünschten Auftragsnamen aus.

1. Wählen Sie dann **Bewertung beenden** aus.

------
#### [ SDK for Python ]

Das folgende Beispiel zeigt, wie Sie einen Auftrag zur Modellbewertung mit dem SDK für Python beenden.

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

In der AWS CLI können Sie den Befehl `help` verwenden, um zu sehen, welche Parameter erforderlich und welche optional sind, wenn Sie `add-something` in der AWS CLI angeben.

```
aws bedrock create-evaluation-job help
```

Das folgende Beispiel zeigt, wie Sie einen Auftrag zur Modellbewertung über die AWS CLI beenden können.

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Löschen eines Auftrags zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

Sie können einen Modellbewertungsauftrag mithilfe der Amazon-Bedrock-Konsole oder mit der [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html)-Operation mit der AWS CLI oder einem unterstützten AWS SDK löschen. 

Bevor Sie einen Modellbewertungsauftrag löschen können, muss der Auftrag den Status `FAILED`, `COMPLETED` oder `STOPPED` haben. Sie können den aktuellen Status eines Auftrags über die Amazon-Bedrock-Konsole oder durch Aufrufen von [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html) aufrufen. Weitere Informationen finden Sie unter [Auflisten von Aufträgen zur automatischen Modellbewertung in Amazon BedrockAuflisten von Modellbewertungsaufträgen, die Mitarbeiter in Amazon Bedrock einsetzen](model-evaluation-jobs-management-list.md). 

Sie können mit der Konsole und mit der `BatchDeleteEvaluationJob`-Operation bis zu 25 Modellbewertungsaufträge gleichzeitig löschen. Wenn Sie weitere Aufträge löschen müssen, wiederholen Sie den Konsolenvorgang oder den Aufruf von `BatchDeleteEvaluationJob`.

Wenn Sie mit der `BatchDeleteEvaluationJob`-Operation einen Modellbewertungsauftrag löschen, benötigen Sie die Amazon-Ressourcennamen (ARNs) der Modelle, die Sie löschen möchten. Weitere Informationen zum Abrufen des ARN für ein Modell finden Sie unter [Auflisten von Aufträgen zur automatischen Modellbewertung in Amazon BedrockAuflisten von Modellbewertungsaufträgen, die Mitarbeiter in Amazon Bedrock einsetzen](model-evaluation-jobs-management-list.md). 

Wenn Sie einen Modellbewertungsauftrag löschen, werden alle Ressourcen in Amazon Bedrock und Amazon SageMaker AI entfernt. Alle in Amazon-S3-Buckets gespeicherten Aufträge zur Modellbewertung bleiben unverändert. Außerdem werden bei Modellbewertungsaufträgen, bei denen Mitarbeiter eingesetzt werden, durch das Löschen eines Modellbewertungsauftrags nicht die Belegschaft oder das Arbeitsteam gelöscht, die Sie in Amazon Cognito oder SageMaker AI konfiguriert haben.

In den folgenden Abschnitten finden Sie Beispiele dafür, wie Sie einen Modellbewertungsauftrag löschen können.

------
#### [ Amazon Bedrock console ]

Gehen Sie wie folgt vor, um einen Modellbewertungsauftrag über die Amazon-Bedrock-Konsole zu löschen. Stellen Sie zum erfolgreichen Abschluss dieses Verfahrens sicher, dass Ihr IAM-Benutzer, Ihre IAM-Gruppe bzw. -Rolle über die erforderlichen Berechtigungen für den Zugriff auf die Konsole verfügt. Weitere Informationen hierzu finden Sie unter [Erforderliche Konsolenberechtigungen zum Erstellen eines Auftrags zur automatischen Modellbewertung](model-evaluation-type-automatic.md#base-for-automatic).

**So löschen Sie mehrere Aufträge zur Modellbewertung**

1. Öffnen Sie die Amazon-Bedrock-Konsole unter: [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/).

1. Klicken Sie im Navigationsbereich auf **Modelle**.

1. Suchen Sie auf der Karte **Modellbewertungsaufträge** anhand der Tabelle nach den Modellbewertungsaufträgen, die Sie löschen möchten, und wählen Sie sie anhand des Kontrollkästchens neben dem Namen des Auftrags aus. Sie können bis zu 25 Aufträge auswählen.

1. Wählen Sie **Löschen** aus, um die Modellbewertungsaufträge zu löschen.

1. Wenn Sie weitere Modellbewertungsaufträge löschen müssen, wiederholen Sie die Schritte 3 und 4.

------
#### [ AWS CLI ]

In der AWS CLI können Sie den Befehl `help` verwenden, um zu sehen, welche Parameter erforderlich und welche optional sind, wenn Sie `batch-delete-evaluation-job` nutzen.

```
aws bedrock batch-delete-evaluation-job help
```

Im Folgenden finden Sie ein Beispiel für die Verwendung von `batch-delete-evaluation-job` und die Angabe, dass zwei Modellbewertungsaufträge gelöscht werden sollen. Sie verwenden den Parameter `job-identifiers`, um eine Liste mit ARNs für die Modellbewertungsaufträge anzugeben, die gelöscht werden sollen. Sie können bis zu 25 Modellbewertungsaufträge in einem einzigen Aufruf von `batch-delete-evaluation-job` löschen. Wenn Sie weitere Aufträge löschen müssen, nehmen Sie weitere Aufrufe von `batch-delete-evaluation-job` vor.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Nach dem Übermitteln erhalten Sie die folgende Antwort.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

Die folgenden Beispiele zeigen, wie Sie einen Auftrag zur Modellbewertung mit dem AWS SDK für Python löschen. Verwenden Sie den Parameter `jobIdentifiers`, um eine Liste mit ARNs für die Modellbewertungsaufträge anzugeben, die gelöscht werden sollen. Sie können bis zu 25 Modellbewertungsaufträge in einem einzigen Aufruf von `BatchDeleteEvaluationJob` löschen. Wenn Sie weitere Aufträge löschen müssen, nehmen Sie weitere Aufrufe von `BatchDeleteEvaluationJob` vor.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------