Meta Llama des modèles

Mode de mise au point

Meta Llama des modèles - Amazon Bedrock

Cette section décrit les paramètres de demande et les champs de réponse pour Meta Llama modèles. Utilisez ces informations pour effectuer des appels d'inférence à Meta Llama modèles avec les opérations InvokeModelet InvokeModelWithResponseStream(streaming). Cette section inclut également Python exemples de code qui montrent comment appeler Meta Llama modèles. Pour utiliser un modèle dans une opération d'inférence, vous avez besoin de son identifiant. Pour obtenir l'ID du modèle, voirModèles de fondation pris en charge dans Amazon Bedrock. Certains modèles fonctionnent également avec le Converse API. Pour vérifier si le Converse L'API prend en charge un Meta Llama modèle, voirModèles pris en charge et caractéristiques des modèles. Pour plus d'exemples de code, consultezExemples de code pour Amazon Bedrock utilisant AWS SDKs.

Les modèles de base d'Amazon Bedrock prennent en charge les modalités d'entrée et de sortie, qui varient d'un modèle à l'autre. Pour vérifier les modalités selon lesquelles Meta Llama modèles pris en charge, voirModèles de fondation pris en charge dans Amazon Bedrock. Pour vérifier quel Amazon Bedrock propose le Meta Llama modèles pris en charge, voirModèles de fondation pris en charge dans Amazon Bedrock. Pour vérifier quelles AWS régions Meta Llama les modèles sont disponibles en, voirModèles de fondation pris en charge dans Amazon Bedrock.

Lorsque vous passez des appels d'inférence avec Meta Llama modèles, vous incluez une invite pour le modèle. Pour obtenir des informations générales sur la création d'invites pour les modèles pris en charge par Amazon Bedrock, consultez. Concepts d'ingénierie rapides Dans Meta Llama informations rapides spécifiques, consultez le Meta Llama guide d'ingénierie rapide.

Note

Llama 3.2 Instruct and Llama 3.3 Instruct les modèles utilisent le géofencing. Cela signifie que ces modèles ne peuvent pas être utilisés en dehors des AWS régions disponibles pour les modèles répertoriés dans le tableau des régions.

Cette section fournit des informations sur l'utilisation des modèles suivants de Meta.

Llama 3 Instruct
Llama 3.1 Instruct
Llama 3.2 Instruct
Llama 3.3 Instruct

Demande et réponse

Le corps de la demande est transmis dans le body champ d'une demande à InvokeModelou InvokeModelWithResponseStream.

Request

Le Llama 3 Instruct, Llama 3.1 Instruct, et Llama 3.2 Instruct les modèles ont les paramètres d'inférence suivants.


{
    "prompt": string,
    "temperature": float,
    "top_p": float,
    "max_gen_len": int
}

REMARQUE : Les modèles Llama 3.2 ajoutent images à la structure de requête, qui est une liste de chaînes. Exemple : images: Optional[List[str]]

Les paramètres suivants sont obligatoires.

prompt — (Obligatoire) L'invite que vous souhaitez transmettre au modèle. Pour des résultats optimaux, formatez la conversation à l'aide du modèle suivant.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de modèle avec invite système

Voici un exemple d'invite qui inclut une invite système.


<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de conversation à plusieurs tours

Voici un exemple d'invite de conversation à plusieurs tours.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|>

What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de modèle avec invite système

Pour plus d’informations, consultez .Meta Llama 3.

Les paramètres suivants sont facultatifs.

température — Utilisez une valeur inférieure pour réduire le caractère aléatoire de la réponse.

Par défaut	Minimum	Maximum
0.5	0	1

top_p — Utilisez une valeur inférieure pour ignorer les options les moins probables. Réglez cette option sur 0 ou 1,0 pour la désactiver.

Par défaut	Minimum	Maximum
0.9	0	1

max_gen_len — Spécifiez le nombre maximum de jetons à utiliser dans la réponse générée. Le modèle tronque la réponse une fois que le texte généré dépasse max_gen_len.

Par défaut	Minimum	Maximum
512	1	2048

Response

Le Llama 3 Instruct les modèles renvoient les champs suivants pour un appel d'inférence de complétion de texte.


{
    "generation": "\n\n<response>",
    "prompt_token_count": int,
    "generation_token_count": int,
    "stop_reason" : string
}

Vous trouverez plus d'informations sur chaque champ ci-dessous.

generation — Le texte généré.
prompt_token_count — Le nombre de jetons contenus dans l'invite.
generation_token_count — Le nombre de jetons dans le texte généré.
stop_reason — La raison pour laquelle la réponse a cessé de générer du texte. Les valeurs possibles sont :
- arrêt : le modèle a fini de générer le texte pour l’invite d’entrée.
- longueur : la longueur des jetons pour le texte généré dépasse la valeur de max_gen_len dans l’appel InvokeModel (InvokeModelWithResponseStream, si vous diffusez une sortie). La réponse est tronquée en fonction du nombre de jetons défini dans max_gen_len. Envisagez d’augmenter la valeur de max_gen_len et de réessayer.

anchor anchor

Le Llama 3 Instruct, Llama 3.1 Instruct, et Llama 3.2 Instruct les modèles ont les paramètres d'inférence suivants.


{
    "prompt": string,
    "temperature": float,
    "top_p": float,
    "max_gen_len": int
}

REMARQUE : Les modèles Llama 3.2 ajoutent images à la structure de requête, qui est une liste de chaînes. Exemple : images: Optional[List[str]]

Les paramètres suivants sont obligatoires.

prompt — (Obligatoire) L'invite que vous souhaitez transmettre au modèle. Pour des résultats optimaux, formatez la conversation à l'aide du modèle suivant.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de modèle avec invite système

Voici un exemple d'invite qui inclut une invite système.


<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|>

What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de conversation à plusieurs tours

Voici un exemple d'invite de conversation à plusieurs tours.


<|begin_of_text|><|start_header_id|>user<|end_header_id|>

What is the capital of France?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

The capital of France is Paris!<|eot_id|><|start_header_id|>user<|end_header_id|>

What is the weather like in Paris?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Exemple de modèle avec invite système

Pour plus d’informations, consultez .Meta Llama 3.

Les paramètres suivants sont facultatifs.

température — Utilisez une valeur inférieure pour réduire le caractère aléatoire de la réponse.

Par défaut	Minimum	Maximum
0.5	0	1

top_p — Utilisez une valeur inférieure pour ignorer les options les moins probables. Réglez cette option sur 0 ou 1,0 pour la désactiver.

Par défaut	Minimum	Maximum
0.9	0	1

max_gen_len — Spécifiez le nombre maximum de jetons à utiliser dans la réponse générée. Le modèle tronque la réponse une fois que le texte généré dépasse max_gen_len.

Par défaut	Minimum	Maximum
512	1	2048

Exemple de code

Cet exemple montre comment appeler le Llama 3 Instructmodèle.


# Use the native inference API to send a text message to Meta Llama 3.

import boto3
import json

from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID, e.g., Llama 3 70b Instruct.
model_id = "meta.llama3-70b-instruct-v1:0"

# Define the prompt for the model.
prompt = "Describe the purpose of a 'hello world' program in one line."

# Embed the prompt in Llama 3's instruction format.
formatted_prompt = f"""
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{prompt}
<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
"""

# Format the request payload using the model's native structure.
native_request = {
    "prompt": formatted_prompt,
    "max_gen_len": 512,
    "temperature": 0.5,
}

# Convert the native request to JSON.
request = json.dumps(native_request)

try:
    # Invoke the model with the request.
    response = client.invoke_model(modelId=model_id, body=request)

except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)

# Decode the response body.
model_response = json.loads(response["body"].read())

# Extract and print the response text.
response_text = model_response["generation"]
print(response_text)

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Luma AI des modèles

Mistral AI des modèles

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Meta Llama des modèles

Note

Rubriques

Demande et réponse

Exemple de code

Sur cette page

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?