Bewerten Sie die Leistung der Amazon Bedrock-Ressourcen

Fokusmodus

Bewerten Sie die Leistung der Amazon Bedrock-Ressourcen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie Amazon Bedrock-Evaluierungen, um die Leistung und Effektivität von Amazon Bedrock-Modellen und Wissensdatenbanken sowie von Modellen und Retrieval Augmented Generation (RAG) -Quellen außerhalb von Amazon Bedrock zu bewerten. Amazon Bedrock kann Leistungskennzahlen wie die semantische Robustheit eines Modells und die Richtigkeit einer Wissensdatenbank beim Abrufen von Informationen und Generieren von Antworten berechnen. Bei Modellevaluierungen können Sie auch ein Team von menschlichen Mitarbeitern einsetzen, um die Bewertung zu bewerten und ihre Beiträge für die Bewertung bereitzustellen.

Automatische Evaluierungen, einschließlich Bewertungen, bei denen Large Language Models (LLMs) zum Einsatz kommen, führen zu berechneten Ergebnissen und Kennzahlen, anhand derer Sie die Effektivität eines Modells und einer Wissensdatenbank beurteilen können. Bei Bewertungen auf Basis von Menschen wird ein Team von Personen eingesetzt, die ihre Bewertungen und Präferenzen in Bezug auf bestimmte Kennzahlen angeben.

Überblick: Automatische Aufträge zur Modellbewertung

Mit automatischen Aufträgen zur Modellbewertung können Sie schnell bewerten, ob ein Modell in der Lage ist, eine Aufgabe auszuführen. Sie können entweder Ihren eigenen benutzerdefinierten Prompt-Datensatz bereitstellen, den Sie auf einen bestimmten Anwendungsfall zugeschnitten haben, oder Sie können einen verfügbaren integrierten Datensatz verwenden.

Überblick: Aufträge zur Modellbewertung unter Einsatz menschlicher Mitarbeiter

Aufträge zur Modellbewertung, bei denen menschliche Mitarbeiter eingesetzt werden, ermöglichen es Ihnen, menschliche Eingaben in den Modellbewertungsprozess einzubringen. Dabei kann es sich um Mitarbeiter Ihres Unternehmens oder eine Gruppe von Experten aus Ihrer Branche handeln.

Überblick: Modellieren Sie Bewertungsjobs, bei denen ein Richtermodell verwendet wird

Modellevaluierungsjobs, die ein Richtermodell verwenden, ermöglichen es Ihnen, die Antworten eines Modells mithilfe eines zweiten LLM schnell zu bewerten. Das zweite LLM bewertet die Antwort und gibt eine Erklärung für jede Antwort.

Überblick über RAG-Evaluierungen, die Large Language Models verwenden () LLMs

LLM-basierte Evaluationen berechnen Leistungskennzahlen für die Wissensdatenbank. Die Kennzahlen zeigen, ob eine RAG-Quelle oder die Amazon Bedrock Knowledge Base in der Lage ist, hochrelevante Informationen abzurufen und nützliche, angemessene Antworten zu generieren. Sie stellen einen Datensatz bereit, der die Eingabeaufforderungen oder Benutzeranfragen enthält, anhand derer bewertet werden kann, wie eine Wissensdatenbank Informationen abruft und Antworten auf diese Anfragen generiert. Der Datensatz muss auch „Ground Truth“ oder die erwarteten abgerufenen Texte und Antworten für die Anfragen enthalten, damit bei der Bewertung überprüft werden kann, ob Ihre Wissensdatenbank den Erwartungen entspricht.

Im folgenden Thema erfahren Sie mehr darüber, wie Sie Ihren ersten Job zur Modellevaluierung erstellen.

Unterstützung für Modellevaluierungsjobs mit den folgenden Typen von Amazon Bedrock-Modellen:

Basismodelle
Amazon Bedrock Marketplace-Modelle
Maßgeschneiderte Fundamentmodelle
Importierte Fundamentmodelle
Prompte Router
Modelle, für die Sie Provisioned Throughput gekauft haben

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden Sie die ApplyGuardrail API in Ihrer Anwendung

Unterstützte Regionen und Modelle

Nächstes Thema:

Unterstützte Regionen und Modelle

Vorheriges Thema:

Verwenden Sie die ApplyGuardrail API in Ihrer Anwendung

Brauchen Sie Hilfe?

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden