Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Bewerten Sie die Leistung der Amazon Bedrock-Ressourcen

Fokusmodus
Bewerten Sie die Leistung der Amazon Bedrock-Ressourcen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie Amazon Bedrock-Evaluierungen, um die Leistung und Effektivität von Amazon Bedrock-Modellen und Wissensdatenbanken sowie von Modellen und Retrieval Augmented Generation (RAG) -Quellen außerhalb von Amazon Bedrock zu bewerten. Amazon Bedrock kann Leistungskennzahlen wie die semantische Robustheit eines Modells und die Richtigkeit einer Wissensdatenbank beim Abrufen von Informationen und Generieren von Antworten berechnen. Bei Modellevaluierungen können Sie auch ein Team von menschlichen Mitarbeitern einsetzen, um die Bewertung zu bewerten und ihre Beiträge für die Bewertung bereitzustellen.

Automatische Evaluierungen, einschließlich Bewertungen, bei denen Large Language Models (LLMs) zum Einsatz kommen, führen zu berechneten Ergebnissen und Kennzahlen, anhand derer Sie die Effektivität eines Modells und einer Wissensdatenbank beurteilen können. Bei Bewertungen auf Basis von Menschen wird ein Team von Personen eingesetzt, die ihre Bewertungen und Präferenzen in Bezug auf bestimmte Kennzahlen angeben.

Überblick: Automatische Aufträge zur Modellbewertung

Mit automatischen Aufträgen zur Modellbewertung können Sie schnell bewerten, ob ein Modell in der Lage ist, eine Aufgabe auszuführen. Sie können entweder Ihren eigenen benutzerdefinierten Prompt-Datensatz bereitstellen, den Sie auf einen bestimmten Anwendungsfall zugeschnitten haben, oder Sie können einen verfügbaren integrierten Datensatz verwenden.

Überblick: Aufträge zur Modellbewertung unter Einsatz menschlicher Mitarbeiter

Aufträge zur Modellbewertung, bei denen menschliche Mitarbeiter eingesetzt werden, ermöglichen es Ihnen, menschliche Eingaben in den Modellbewertungsprozess einzubringen. Dabei kann es sich um Mitarbeiter Ihres Unternehmens oder eine Gruppe von Experten aus Ihrer Branche handeln.

Überblick: Modellieren Sie Bewertungsjobs, bei denen ein Richtermodell verwendet wird

Modellevaluierungsjobs, die ein Richtermodell verwenden, ermöglichen es Ihnen, die Antworten eines Modells mithilfe eines zweiten LLM schnell zu bewerten. Das zweite LLM bewertet die Antwort und gibt eine Erklärung für jede Antwort.

Überblick über RAG-Evaluierungen, die Large Language Models verwenden () LLMs

LLM-basierte Evaluationen berechnen Leistungskennzahlen für die Wissensdatenbank. Die Kennzahlen zeigen, ob eine RAG-Quelle oder die Amazon Bedrock Knowledge Base in der Lage ist, hochrelevante Informationen abzurufen und nützliche, angemessene Antworten zu generieren. Sie stellen einen Datensatz bereit, der die Eingabeaufforderungen oder Benutzeranfragen enthält, anhand derer bewertet werden kann, wie eine Wissensdatenbank Informationen abruft und Antworten auf diese Anfragen generiert. Der Datensatz muss auch „Ground Truth“ oder die erwarteten abgerufenen Texte und Antworten für die Anfragen enthalten, damit bei der Bewertung überprüft werden kann, ob Ihre Wissensdatenbank den Erwartungen entspricht.

Im folgenden Thema erfahren Sie mehr darüber, wie Sie Ihren ersten Job zur Modellevaluierung erstellen.

Unterstützung für Modellevaluierungsjobs mit den folgenden Typen von Amazon Bedrock-Modellen:

  • Basismodelle

  • Amazon Bedrock Marketplace-Modelle

  • Maßgeschneiderte Fundamentmodelle

  • Importierte Fundamentmodelle

  • Prompte Router

  • Modelle, für die Sie Provisioned Throughput gekauft haben

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.