Beeinflussen Sie die Antwortgenerierung mit Inferenzparametern - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Beeinflussen Sie die Antwortgenerierung mit Inferenzparametern

Beim Ausführen der Modellinferenz können Sie die Inferenzparameter anpassen, um die Modellantwort zu beeinflussen. Inferenzparameter können den Pool möglicher Ausgaben ändern, die das Modell bei der Generierung berücksichtigt, oder sie können die endgültige Antwort einschränken. Weitere Informationen zu Inferenzparametern für verschiedene Modelle finden Sie unter. Inferenzanforderungsparameter und Antwortfelder für Foundation-Modelle

Die folgenden Kategorien von Parametern kommen häufig in verschiedenen Modellen vor:

Zufälligkeit und Diversität

Ein Modell bestimmt für jede gegebene Sequenz eine Wahrscheinlichkeitsverteilung der Optionen für das nächste Token in der Sequenz. Das Modell verwendet Stichproben aus dieser Verteilung, um jedes Token in einer Ausgabe zu generieren. Zufälligkeit und Diversität bezeichnen den Umfang an Variationen in der Antwort eines Modells. Sie können diese Faktoren steuern, indem Sie die Verteilung einschränken oder anpassen. Basismodelle unterstützen in der Regel die folgenden Parameter, um die Zufälligkeit und Diversität der Antwort zu kontrollieren.

  • Temperatur: Wirkt sich auf die Form der Wahrscheinlichkeitsverteilung für die vorhergesagte Ausgabe aus und beeinflusst die Wahrscheinlichkeit, dass das Modell Ergebnisse mit niedrigerer Wahrscheinlichkeit auswählt.

    • Wählen Sie einen niedrigeren Wert, um das Modell zur Auswahl von Ergebnissen mit höherer Wahrscheinlichkeit zu bewegen.

    • Wählen Sie einen höheren Wert, um das Modell zur Auswahl von Ergebnissen mit niedrigerer Wahrscheinlichkeit zu bewegen.

    Technisch gesehen moduliert die Temperatur die Wahrscheinlichkeitsmassenfunktion für das nächste Token. Eine niedrigere Temperatur verschärft die Funktion und führt zu deterministischeren Antworten, und eine höhere Temperatur flacht die Funktion ab und führt zu zufälligeren Antworten.

  • Top K: Die Anzahl der wahrscheinlichsten Kandidaten, die das Modell für das nächste Token in Erwägung zieht.

    • Wählen Sie einen niedrigeren Wert, um die Größe des Pools zu verringern und die Optionen auf wahrscheinlichere Ausgaben zu beschränken.

    • Wählen Sie einen höheren Wert, um den Pool zu vergrößern und dem Modell zu ermöglichen, weniger wahrscheinliche Ausgaben in Erwägung zu ziehen.

    Wenn Sie beispielsweise den Wert 50 für Top K auswählen, trifft das Modell eine Auswahl unter den 50 wahrscheinlichsten Token, die in der Sequenz als Nächstes stehen könnten.

  • Top K: Der Prozentsatz der wahrscheinlichsten Kandidaten, die das Modell für das nächste Token in Erwägung zieht.

    • Wählen Sie einen niedrigeren Wert, um die Größe des Pools zu verringern und die Optionen auf wahrscheinlichere Ausgaben zu beschränken.

    • Wählen Sie einen höheren Wert, um den Pool zu vergrößern und dem Modell zu ermöglichen, weniger wahrscheinliche Ausgaben in Erwägung zu ziehen.

    Technisch gesehen berechnet das Modell die kumulative Wahrscheinlichkeitsverteilung für die Gruppe der Antworten und berücksichtigt nur die obersten P% der Verteilung.

    Wenn Sie beispielsweise den Wert 0,8 für Top P auswählen, trifft das Modell eine Auswahl unter den oberen 80 % der Wahrscheinlichkeitsverteilung an Token, die in der Sequenz als Nächstes stehen könnten.

In der folgenden Tabelle werden die Auswirkungen dieser Parameter zusammengefasst.

Parameter Auswirkung eines niedrigeren Werts Auswirkung eines höheren Werts
Temperatur Erhöhung der Wahrscheinlichkeit von Token mit höherer Wahrscheinlichkeit

Verringerung der Wahrscheinlichkeit von Token mit geringerer Wahrscheinlichkeit

Erhöhung der Wahrscheinlichkeit von Token mit geringerer Wahrscheinlichkeit

Verringerung der Wahrscheinlichkeit von Token mit höherer Wahrscheinlichkeit

Top-K Entfernung von Token mit geringerer Wahrscheinlichkeit Zulassung von Token mit geringerer Wahrscheinlichkeit
Top-P Entfernung von Token mit geringerer Wahrscheinlichkeit Zulassung von Token mit geringerer Wahrscheinlichkeit

Sehen Sie sich die Beispielaufforderung I hear the hoof beats of " an, um sich mit diesen Parameter vertraut zu machen. Nehmen wir an, das Modell bestimmt die folgenden drei Wörter als Kandidaten für das nächste Token. Das Modell weist jedem Wort außerdem eine Wahrscheinlichkeit zu.

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • Wenn Sie eine hohe Temperatur festlegen, wird die Wahrscheinlichkeitsverteilung flacher und die Wahrscheinlichkeiten werden undifferenzierter, was die Wahrscheinlichkeit der Wahl von „Einhörnern“ erhöhen und die Wahrscheinlichkeit der Wahl von „Pferden“ verringern würde.

  • Wenn Sie Top K auf 2 festlegen, berücksichtigt das Modell nur die beiden wahrscheinlichsten Kandidaten: „Pferde“ und „Zebras“.

  • Wenn Sie Top P auf 0,7 festlegen, berücksichtigt das Modell nur „Pferde“, da dies der einzige Kandidat ist, der zu den oberen 70% der Wahrscheinlichkeitsverteilung gehört. Wenn Sie Top P auf 0,9 festlegen, berücksichtigt das Modell „Pferde“ und „Zebras“, da sie zu den oberen 90% der Wahrscheinlichkeitsverteilung gehören.

Länge

Basismodelle unterstützen in der Regel die Parameter, mit denen die Länge der Antworten begrenzen. Im Folgenden finden Sie Beispiele für diese Parameter.

  • Antwortlänge: Ein genauer Wert zur Angabe der Höchst- und Mindestzahl an Token, die in der generierten Antwort zurückgegeben werden sollen.

  • Strafen: Geben Sie an, inwiefern Strafen auf die Ausgaben in einer Antwort angewendet werden sollen. Beispiele sind unter anderem:

    • Die Länge der Antwort.

    • Wiederholte Token in einer Antwort.

    • Häufigkeit von Token in einer Antwort.

    • Arten von Token in einer Antwort.

  • Stoppsequenzen: Geben Sie Zeichenfolgen an, die das Modell daran hindern, weitere Token zu generieren. Wenn das Modell eine von Ihnen angegebene Stoppsequenz generiert, wird die Generierung nach dieser Sequenz beendet.