Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
In diesem Abschnitt werden die Anforderungsparameter und Antwortfelder für beschrieben Meta Llama Modelle. Verwenden Sie diese Informationen, um Inferenzrufe zu tätigen Meta Llama Modelle mit den Operationen InvokeModelund InvokeModelWithResponseStream(Streaming). Dieser Abschnitt umfasst auch Python Codebeispiele, die zeigen, wie man anruft Meta Llama Modelle. Um ein Modell in einer Inferenzoperation zu verwenden, benötigen Sie die Modell-ID für das Modell. Informationen zum Abrufen der Modell-ID finden Sie unterUnterstützte Basismodelle in Amazon Bedrock. Einige Modelle funktionieren auch mit Converse API. Um zu überprüfen, ob Converse Die API unterstützt ein bestimmtes Meta Llama Modell, sieheUnterstützte Modelle und Modellfunktionen. Weitere Codebeispiele finden Sie unterCodebeispiele für Amazon Bedrock mit AWS SDKs.
Foundation-Modelle in Amazon Bedrock unterstützen Eingabe- und Ausgabemodalitäten, die von Modell zu Modell variieren. Um die Modalitäten zu überprüfen, die Meta Llama Modelle, die unterstützt werden, finden Sie unterUnterstützte Basismodelle in Amazon Bedrock. Um zu überprüfen, welche Amazon Bedrock Funktionen bietet Meta Llama Unterstützte Modelle finden Sie unterUnterstützte Basismodelle in Amazon Bedrock. Um zu überprüfen, welche AWS Regionen Meta Llama Modelle sind in erhältlich, sieheUnterstützte Basismodelle in Amazon Bedrock.
Wenn Sie Inferenzrufe tätigen mit Meta Llama Modelle fügen Sie eine Eingabeaufforderung für das Modell hinzu. Allgemeine Informationen zum Erstellen von Eingabeaufforderungen für die von Amazon Bedrock unterstützten Modelle finden Sie unter. Schnelle technische Konzepte Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. Meta Llama spezifische Informationen zur Aufforderung finden Sie in der Meta Llama schneller technischer Leitfaden
Anmerkung
Llama 3.2 Instruct and Llama 3.3 Instruct Modelle verwenden Geofencing. Das bedeutet, dass diese Modelle nicht außerhalb der AWS Regionen verwendet werden können, die für diese in der Tabelle Regionen aufgeführten Modelle verfügbar sind.
Dieser Abschnitt enthält Informationen zur Verwendung der folgenden Modelle von Meta.
Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct
Anfrage und Antwort
Der Text der Anfrage wird im body
Feld einer Anfrage an InvokeModeloder übergeben InvokeModelWithResponseStream.
Das Tool Llama 3 Instruct, Llama 3.1 Instruct, und Llama 3.2 Instruct Modelle haben die folgenden Inferenzparameter.
{
"prompt": string,
"temperature": float,
"top_p": float,
"max_gen_len": int
}
HINWEIS: Llama 3.2-Modelle ergänzen die Anforderungsstruktur, bei der es sich images
um eine Liste von Zeichenketten handelt. Beispiel: images: Optional[List[str]]
Die folgenden Parameter sind erforderlich.
-
prompt — (Erforderlich) Die Aufforderung, die Sie an das Modell übergeben möchten. Um optimale Ergebnisse zu erzielen, formatieren Sie die Konversation mit der folgenden Vorlage.
<|begin_of_text|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
Beispielvorlage mit Systemaufforderung
Im Folgenden finden Sie ein Beispiel für eine Eingabeaufforderung, die eine Systemaufforderung enthält.
<|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
Beispiel für eine Konversation mit mehreren Runden
Im Folgenden finden Sie ein Beispiel für eine Eingabeaufforderung für eine Konversation mit mehreren Runden.
<|begin_of_text|><|start_header_id|>user<|end_header_id|> What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|> The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|> What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
Beispielvorlage mit Systemaufforderung
Weitere Informationen finden Sie unter Meta Llama 3
.
Die folgenden Parameter sind optional.
-
Temperatur — Verwenden Sie einen niedrigeren Wert, um die Zufälligkeit der Antwortvariablen zu verringern.
Standard Minimum Maximum 0.5
0
1
-
top_p — Verwenden Sie einen niedrigeren Wert, um weniger wahrscheinliche Optionen zu ignorieren. Legen Sie den Wert auf 0 oder 1,0 fest, um den Parameter zu deaktivieren.
Standard Minimum Maximum 0.9
0
1
-
max_gen_len — Gibt die maximale Anzahl von Tokens an, die in der generierten Antwort verwendet werden sollen. Das Modell kürzt die Antwort, sobald der generierte Text den Wert
max_gen_len
überschreitet.Standard Minimum Maximum 512
1
2048
Beispiel-Code
Dieses Beispiel zeigt, wie der Aufruf von Llama 3 InstructModell.
# Use the native inference API to send a text message to Meta Llama 3.
import boto3
import json
from botocore.exceptions import ClientError
# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client("bedrock-runtime", region_name="us-west-2")
# Set the model ID, e.g., Llama 3 70b Instruct.
model_id = "meta.llama3-70b-instruct-v1:0"
# Define the prompt for the model.
prompt = "Describe the purpose of a 'hello world' program in one line."
# Embed the prompt in Llama 3's instruction format.
formatted_prompt = f"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{prompt}
<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
"""
# Format the request payload using the model's native structure.
native_request = {
"prompt": formatted_prompt,
"max_gen_len": 512,
"temperature": 0.5,
}
# Convert the native request to JSON.
request = json.dumps(native_request)
try:
# Invoke the model with the request.
response = client.invoke_model(modelId=model_id, body=request)
except (ClientError, Exception) as e:
print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
exit(1)
# Decode the response body.
model_response = json.loads(response["body"].read())
# Extract and print the response text.
response_text = model_response["generation"]
print(response_text)