

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Llama-Modelle von Meta
<a name="model-parameters-meta"></a>

In diesem Abschnitt werden die Anforderungsparameter und Antwortfelder für Meta-Llama-Modelle beschrieben. Verwenden Sie diese Informationen, um Inferenzaufrufe an Meta Llama Modelle mit den Operationen [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)und [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)(Streaming) durchzuführen. Dieser Abschnitt enthält auch Python-Codebeispiele, die zeigen, wie Meta-Llama-Modelle aufgerufen werden. Sie benötigen die Modell-ID für das Modell, um ein Modell in einer Inferenzoperation verwenden zu können. Informationen zum Abrufen der Modell-ID finden Sie unter [Unterstützte Basismodelle in Amazon Bedrock](models-supported.md). Einige Modelle funktionieren auch mit der [Converse-API](conversation-inference.md). Um zu überprüfen, ob ein bestimmtes Meta Llama Modell eine Funktion unterstützt, finden Sie unter [Modelle auf einen Blick](model-cards.md). Weitere Codebeispiele finden Sie unter [Codebeispiele für Amazon Bedrock mit AWS SDKs](service_code_examples.md).

Basismodelle in Amazon Bedrock unterstützen Eingabe- und Ausgabemodalitäten, die von Modell zu Modell variieren. Informationen zu den Modalitäten, die von Meta-Llama-Modellen unterstützt werden, finden Sie unter [Unterstützte Basismodelle in Amazon Bedrock](models-supported.md). Informationen darüber, welche Amazon-Bedrock-Features Meta-Llama-Modelle unterstützen, finden Sie unter [Unterstützte Basismodelle in Amazon Bedrock](models-supported.md). Informationen darüber, in welchen AWS Regionen diese Meta Llama Modelle verfügbar sind, finden Sie unter[Unterstützte Basismodelle in Amazon Bedrock](models-supported.md).

Wenn Sie Inferenzaufrufe mit Meta-Llama-Modellen tätigen, schließen Sie einen Prompt für das Modell ein. Allgemeine Informationen zum Erstellen von Prompts für die Modelle, die von Amazon Bedrock unterstützt werden, finden Sie unter [Prompt-Engineering-Konzepte](prompt-engineering-guidelines.md). Für Meta Llama spezifische Informationen zu Prompts finden Sie im [Handbuch zu Llama-Prompt-Engineering von Meta](https://ai.meta.com/llama/get-started/#prompting).

**Anmerkung**  
Die Modelle Llama 3.2 Instruct und Llama 3.3 Instruct verwenden Geofencing. Das bedeutet, dass diese Modelle nicht außerhalb der AWS Regionen verwendet werden können, die für diese in der Tabelle Regionen aufgeführten Modelle verfügbar sind.

Dieser Abschnitt enthält Informationen zur Verwendung der folgenden Modelle von Meta.
+ Llama 3 Instruct
+ Llama 3.1 Instruct
+ Llama 3.2 Instruct
+ Llama 3.3 Instruct
+ Llama 4 Instruct

**Topics**
+ [Anforderung und Antwort](#model-parameters-meta-request-response)
+ [Beispiel-Code](#api-inference-examples-meta-llama)

## Anforderung und Antwort
<a name="model-parameters-meta-request-response"></a>

Der Anforderungstext wird im `body` Feld einer Anfrage an [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)oder übergeben [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html).

**Anmerkung**  
Sie können die Operationen [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html)oder [ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html)(Streaming) nicht mit verwendenLlama 4 Instruct.

------
#### [ Request ]

Die Modelle Llama 3 Instruct, Llama 3.1 Instruct, Llama 3.2 Instruct und Llama 4 Instruct haben die folgenden Inferenzparameter: 

```
{
    "prompt": string,
    "temperature": float,
    "top_p": float,
    "max_gen_len": int
}
```

HINWEIS: Llama-3.2-Modelle und neuer ergänzen die Anforderungsstruktur durch `images`, wobei es sich um eine Liste von Zeichenfolgen handelt. Beispiel: `images: Optional[List[str]]` 

Die folgenden Parameter sind erforderlich:
+  **prompt** – (erforderlich) Der Prompt, den Sie an das Modell übergeben möchten. Optimale Ergebnisse erzielen Sie, wenn Sie die Konversation mit der folgenden Vorlage formatieren.

  ```
  <|begin_of_text|><|start_header_id|>user<|end_header_id|>
  
  What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
  ```

  **Beispielvorlage mit System-Prompt**

  Im Folgenden finden Sie ein Beispiel für einen Prompt, der einen System-Prompt enthält.

  ```
  <|begin_of_text|><|start_header_id|>system<|end_header_id|>
  
  You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>
  
  What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
  ```

  **Beispiel für eine Konversation mit mehreren Runden**

  Es folgt ein Beispiel eines Prompts für eine Konversation mit mehreren Runden.

  ```
  <|begin_of_text|><|start_header_id|>user<|end_header_id|>
  
  What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
  
  The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|>
  
  What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
  ```

  **Beispielvorlage mit System-Prompt**

  Weitere Informationen finden Sie unter [https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3).

Die folgenden Parameter sind optional:
+ **Temperatur** – Verwenden Sie einen niedrigeren Wert, um die Zufälligkeit der Antwort zu verringern.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-parameters-meta.html)
+ **top\$1p** – Verwenden Sie einen niedrigeren Wert, um weniger wahrscheinliche Optionen zu ignorieren. Legen Sie den Wert auf 0 oder 1,0 fest, um den Parameter zu deaktivieren.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-parameters-meta.html)
+ **max\$1gen\$1len** – Geben Sie die maximale Anzahl von Token an, die in der generierten Antwort verwendet werden soll. Das Modell kürzt die Antwort, sobald der generierte Text den Wert `max_gen_len` überschreitet.     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-parameters-meta.html)

------
#### [ Response ]

Die Modelle von Llama 3 Instruct verfügen über die folgenden Felder für Inferenzaufrufe zur Textvervollständigung. 

```
{
    "generation": "\n\n<response>",
    "prompt_token_count": int,
    "generation_token_count": int,
    "stop_reason" : string
}
```

Weitere Informationen zu den einzelnen Feldern finden Sie weiter unten.
+ **generation** – Der generierte Text
+ **prompt\$1token\$1count** – Die Anzahl der Token im Prompt
+ **generation\$1token\$1count** – Die Anzahl der Token im generierten Text
+ **stop\$1reason** – Der Grund, warum die Antwort keinen Text mehr generiert hat. Die möglichen Werte sind:
  + **Stopp** – Das Modell hat die Textgenerierung für die Eingabeaufforderung abgeschlossen.
  + **Länge** – Die Länge der Token für den generierten Text überschreitet den Wert von `max_gen_len` im Aufruf von `InvokeModel` (`InvokeModelWithResponseStream`, wenn Sie die Ausgabe streamen). Die Antwort wird auf `max_gen_len` Token gekürzt. Erwägen Sie, den Wert `max_gen_len` zu erhöhen und es erneut zu versuchen.

------

## Beispiel-Code
<a name="api-inference-examples-meta-llama"></a>

Das folgende Beispiel zeigt, wie das Modell *Llama 3 Instruct* aufgerufen wird.

```
# Use the native inference API to send a text message to Meta Llama 3.

import boto3
import json

from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS-Region of your choice.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID, e.g., Llama 3 70b Instruct.
model_id = "meta.llama3-70b-instruct-v1:0"

# Define the prompt for the model.
prompt = "Describe the purpose of a 'hello world' program in one line."

# Embed the prompt in Llama 3's instruction format.
formatted_prompt = f"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{prompt}
<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
"""

# Format the request payload using the model's native structure.
native_request = {
    "prompt": formatted_prompt,
    "max_gen_len": 512,
    "temperature": 0.5,
}

# Convert the native request to JSON.
request = json.dumps(native_request)

try:
    # Invoke the model with the request.
    response = client.invoke_model(modelId=model_id, body=request)

except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)

# Decode the response body.
model_response = json.loads(response["body"].read())

# Extract and print the response text.
response_text = model_response["generation"]
print(response_text)
```

Dieses Beispiel veranschaulicht, wie Sie die Länge der generierten Antworten mit Modellen von Llama 3 Instruct steuern. Für detaillierte Antworten oder Zusammenfassungen passen Sie „max\$1gen\$1len“ an und fügen Sie Ihrem Prompt spezifische Anweisungen hinzu.