Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Aufgabentypen zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.


**Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock**  


- **Allgemeine Textgenerierung **
  - **Metrik:** Accuracy  / **Integrierte Datensätze:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Berechnete Metrik:** Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK)
  - **Metrik:** Robustheit / **Integrierte Datensätze:** [BOLD](https://github.com/amazon-science/bold) / **Berechnete Metrik:** Wortfehlerrate
  - **Integrierte Datensätze:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Integrierte Datensätze:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **Metrik:** Toxizität / **Integrierte Datensätze:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Berechnete Metrik:** Toxizität 
  - **Integrierte Datensätze:** [BOLD](https://github.com/amazon-science/bold)

- **Textzusammenfassung**
  - **Metrik:** Accuracy  / **Integrierte Datensätze:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Berechnete Metrik:** BERTScore
  - **Metrik:** Toxizität / **Integrierte Datensätze:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Berechnete Metrik:** Toxizität 
  - **Metrik:**  Robustheit  / **Integrierte Datensätze:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **Berechnete Metrik:** BERTScore und deltaBERTScore

- **Frage und Antwort**
  - **Metrik:** Accuracy / **Integrierte Datensätze:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Berechnete Metrik:** NLP-F1
  - **Integrierte Datensätze:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Integrierte Datensätze:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Metrik:** Robustheit / **Integrierte Datensätze:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Berechnete Metrik:** F1 und deltaF1 
  - **Integrierte Datensätze:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Integrierte Datensätze:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Metrik:** Toxizität / **Integrierte Datensätze:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Berechnete Metrik:** Toxizität 
  - **Integrierte Datensätze:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Integrierte Datensätze:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Textklassifizierung**
  - **Metrik:** Accuracy  / **Integrierte Datensätze:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Berechnete Metrik:** Genauigkeit (binäre Genauigkeit aus classification\_accuracy\_score)
  - **Metrik:** Robustheit  / **Integrierte Datensätze:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Berechnete Metrik:** classification\_accuracy\_score und delta\_classification\_accuracy\_score


**Topics**
+ [Allgemeine Textgenerierung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Textzusammenfassung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Frage und Antwort zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Textklassifizierung für die Modellbewertung in Amazon Bedrock](model-evaluation-text-classification.md)