Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie Amazon Bedrock-Evaluierungen, um die Leistung und Effektivität von Amazon Bedrock-Modellen und Wissensdatenbanken sowie von Modellen und Retrieval Augmented Generation (RAG) -Quellen außerhalb von Amazon Bedrock zu bewerten. Amazon Bedrock kann Leistungskennzahlen wie die semantische Robustheit eines Modells und die Richtigkeit einer Wissensdatenbank beim Abrufen von Informationen und Generieren von Antworten berechnen. Bei Modellevaluierungen können Sie auch ein Team von menschlichen Mitarbeitern einsetzen, um die Bewertung zu bewerten und ihre Beiträge für die Bewertung bereitzustellen.
Automatische Evaluierungen, einschließlich Bewertungen, bei denen Large Language Models (LLMs) zum Einsatz kommen, führen zu berechneten Ergebnissen und Kennzahlen, anhand derer Sie die Effektivität eines Modells und einer Wissensdatenbank beurteilen können. Bei Bewertungen auf Basis von Menschen wird ein Team von Personen eingesetzt, die ihre Bewertungen und Präferenzen in Bezug auf bestimmte Kennzahlen angeben.
Überblick: Automatische Aufträge zur Modellbewertung
Mit automatischen Aufträgen zur Modellbewertung können Sie schnell bewerten, ob ein Modell in der Lage ist, eine Aufgabe auszuführen. Sie können entweder Ihren eigenen benutzerdefinierten Prompt-Datensatz bereitstellen, den Sie auf einen bestimmten Anwendungsfall zugeschnitten haben, oder Sie können einen verfügbaren integrierten Datensatz verwenden.
Überblick: Aufträge zur Modellbewertung unter Einsatz menschlicher Mitarbeiter
Aufträge zur Modellbewertung, bei denen menschliche Mitarbeiter eingesetzt werden, ermöglichen es Ihnen, menschliche Eingaben in den Modellbewertungsprozess einzubringen. Dabei kann es sich um Mitarbeiter Ihres Unternehmens oder eine Gruppe von Experten aus Ihrer Branche handeln.
Überblick: Modellieren Sie Bewertungsjobs, bei denen ein Richtermodell verwendet wird
Modellevaluierungsjobs, die ein Richtermodell verwenden, ermöglichen es Ihnen, die Antworten eines Modells mithilfe eines zweiten LLM schnell zu bewerten. Das zweite LLM bewertet die Antwort und gibt eine Erklärung für jede Antwort.
Überblick über RAG-Evaluierungen, die Large Language Models verwenden () LLMs
LLM-basierte Evaluationen berechnen Leistungskennzahlen für die Wissensdatenbank. Die Kennzahlen zeigen, ob eine RAG-Quelle oder die Amazon Bedrock Knowledge Base in der Lage ist, hochrelevante Informationen abzurufen und nützliche, angemessene Antworten zu generieren. Sie stellen einen Datensatz bereit, der die Eingabeaufforderungen oder Benutzeranfragen enthält, anhand derer bewertet werden kann, wie eine Wissensdatenbank Informationen abruft und Antworten auf diese Anfragen generiert. Der Datensatz muss auch „Ground Truth“ oder die erwarteten abgerufenen Texte und Antworten für die Anfragen enthalten, damit bei der Bewertung überprüft werden kann, ob Ihre Wissensdatenbank den Erwartungen entspricht.
Im folgenden Thema erfahren Sie mehr darüber, wie Sie Ihren ersten Job zur Modellevaluierung erstellen.
Unterstützung für Modellevaluierungsjobs mit den folgenden Typen von Amazon Bedrock-Modellen:
-
Basismodelle
Amazon Bedrock Marketplace-Modelle
-
Maßgeschneiderte Fundamentmodelle
-
Importierte Fundamentmodelle
-
Prompte Router
-
Modelle, für die Sie Provisioned Throughput gekauft haben
Themen
Einen automatischen Modellevaluierungsjob in Amazon Bedrock erstellen
Erstellung eines Modellevaluierungsjobs mit menschlichen Mitarbeitern in Amazon Bedrock
Erstellung eines Model-Evaluierungsjobs, bei dem ein LLM als Judge verwendet wird
Wählen Sie mithilfe von Amazon Bedrock-Evaluierungen die RAG-Quelle mit der besten Leistung
Erforderliche CORS-Berechtigungen (Cross Origin Resource Sharing) für S3-Buckets
Überprüfen Sie die Jobberichte und Kennzahlen zur Modellevaluierung in Amazon Bedrock
Datenverwaltung und Verschlüsselung im Amazon Bedrock-Evaluierungsjob