Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole) - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole)

Sie können die in einem Bericht enthaltenen Kennzahlen für einen automatischen Modellevaluierungsjob mithilfe der Amazon Bedrock-Konsole überprüfen.

Auf Ihrem Bericht über die Modellbewertung sehen Sie die Gesamtzahl der Eingabeaufforderungen in dem Datensatz, den Sie bereitgestellt oder ausgewählt haben, und wie viele dieser Eingabeaufforderungen beantwortet wurden. Wenn die Anzahl der Antworten kleiner als die Anzahl der Eingabeaufforderungen ist, überprüfen Sie unbedingt die Datenausgabedatei in Ihrem Amazon-S3-Bucket. Es ist möglich, dass die Eingabeaufforderung einen Fehler im Modell verursacht hat und keine Inferenz abgerufen wurde. Für metrische Berechnungen werden nur Antworten aus dem Modell verwendet.

Gehen Sie wie folgt vor, um einen automatischen Auftrag zur Modellbewertung auf der Amazon-Bedrock-Konsole zu überprüfen.

  1. Öffnen Sie die Amazon-Bedrock-Konsole.

  2. Wählen Sie im Navigationsbereich die Option Modellbewertung.

  3. Suchen Sie als Nächstes in der Tabelle Modellbewertungen den Namen des automatisierten Auftrags zur Modellbewertung, den Sie überprüfen möchten. Wählen Sie ihn anschließend aus.

In allen Metriken zur semantischen Robustheit werden Eingabeaufforderungen durch Amazon Bedrock wie folgt beeinträchtigt: Umwandlung von Text in Kleinbuchstaben, Tippfehler, Umwandlung von Zahlen in Wörter, zufällige Änderung in Großbuchstaben und zufälliges Hinzufügen/Löschen von Leerzeichen.

Nachdem Sie den Bericht über die Modellbewertung geöffnet haben, können Sie die zusammengefassten Metriken und die Zusammenfassung der Auftragskonfiguration des Auftrags anzeigen.

Für jeden Metrik- und Prompt-Datensatz, der bei der Erstellung des Auftrags angegeben wurde, wird eine Karte angezeigt und für jeden Datensatz, der für diese Metrik angegeben wurde, wird ein Wert eingeblendet. Die Art und Weise, wie dieser Wert berechnet wird, hängt vom Aufgabentyp und den ausgewählten Metriken ab.

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den allgemeinen Aufgabentyp zur Textgenerierung angewendet wird
  • Genauigkeit: Für diese Metrik wird der Wert anhand des Knowledge Score (RWKScore) aus der realen Welt berechnet. RWKDer Wert untersucht die Fähigkeit des Modells, Faktenwissen über die reale Welt zu kodieren. Ein hoher RWK Wert bedeutet, dass Ihr Modell korrekt ist.

  • Robustheit: Für diese Metrik wird der Wert anhand der semantischen Robustheit berechnet. Diese wird anhand der Wortfehlerrate berechnet. Semantische Robustheit misst die Änderungen der Modellausgabe infolge kleinerer Störungen in der Eingabe ohne Auswirkungen auf die Semantik. Robustheit gegenüber solchen Störungen ist eine wünschenswerte Eigenschaft. Daher deutet ein niedriger Wert für die semantische Robustheit darauf hin, dass Ihr Modell eine gute Leistung erbringt.

    Wir berücksichtigen folgende Störungstypen: Umwandlung von Text in Kleinbuchstaben, Tippfehler, Umwandlung von Zahlen in Wörter, zufällige Änderungen in Großbuchstaben und zufälliges Hinzufügen/Löschen von Leerzeichen. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet.

  • Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp zur Textzusammenfassung angewendet wird
  • Genauigkeit: Für diese Metrik wird der Wert mithilfe von Score berechnet. BERT BERTDie Punktzahl wird anhand vorab trainierter kontextueller Einbettungen aus Modellen berechnet. BERT Er ordnet Wörter in Kandidaten- und Referenzsätzen nach Kosinus-Ähnlichkeit zu.

  • Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Es wird berechnet, indem (DeltaBERTScore/) x 100 genommen wird. BERTScore Delta BERTScore ist der Unterschied in den BERT Punktzahlen zwischen einer gestörten Aufforderung und der ursprünglichen Eingabeaufforderung in Ihrem Datensatz. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.

  • Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp „Frage und Antwort“ angewendet wird
  • Genauigkeit: Für diese Metrik wird der Wert anhand des F1-Scores berechnet. Der F1-Score wird berechnet, indem der Präzisionsscore (das Verhältnis der korrekten Vorhersagen zu allen Vorhersagen) durch den Recall-Score (das Verhältnis der korrekten Vorhersagen zur Gesamtzahl der relevanten Vorhersagen) dividiert wird. Der F1-Score reicht von 0 bis 1, wobei höhere Werte für eine bessere Leistung stehen.

  • Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Er wird berechnet, indem (Delta F1/F1) mit 100 multipliziert wird. Delta F1 ist die Differenz der F1-Werte zwischen einer gestörten Eingabeaufforderung und der ursprünglichen Eingabeaufforderung in Ihrem Datensatz. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.

  • Toxizität: Für diese Metrik wird der Wert anhand der Toxizität aus dem Detoxify-Algorithmus berechnet. Ein niedriger Toxizitätswert weist darauf hin, dass das von Ihnen gewählte Modell keine großen Mengen toxischer Inhalte erzeugt. Weitere Informationen zum Entgiftungsalgorithmus und zur Berechnung der Toxizität finden Sie unter dem Entgiftungsalgorithmus unter. GitHub

Die Berechnungsmethode jeder verfügbaren Metrik, wenn sie auf den Aufgabentyp zur Textklassifizierung angewendet wird
  • Genauigkeit: Für diese Metrik wird der Wert anhand der Genauigkeit berechnet. Die Genauigkeit ist ein Wert, der die vorhergesagte Klasse mit ihrer Ground-Truth-Beschriftung vergleicht. Eine höhere Genauigkeit bedeutet, dass Ihr Modell Text basierend auf der angegebenen Ground-Truth-Beschriftung korrekt klassifiziert.

  • Robustheit: Bei dieser Metrik ist der berechnete Wert ein Prozentsatz. Er wird berechnet, indem (Genauigkeitswert für die Delta-Klassifizierung/Genauigkeitswert für die Klassifizierung) x 100 genommen wird. Die Genauigkeitsbewertung der Delta-Klassifizierung ist die Differenz zwischen der Klassifikationsgenauigkeit der gestörten Eingabeaufforderung und der ursprünglichen Eingabeaufforderung. Jede Eingabeaufforderung in Ihrem Datensatz wird ungefähr fünfmal gestört. Anschließend wird jede gestörte Antwort zur Inferenz gesendet und zur automatischen Berechnung der Robustheitswerte verwendet. Je niedriger der Wert, desto robuster das ausgewählte Modell.