Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécutez l'inférence sur un modèle via l'API en envoyant une InvokeModelWithResponseStreamdemande InvokeModelor. Pour vérifier si un modèle prend en charge le streaming, envoyez une ListFoundationModelsdemande GetFoundationModelor et vérifiez la valeur dans le responseStreamingSupported
champ.
Les champs suivants sont obligatoires :
Champ | Cas d’utilisation |
---|---|
modelId | Pour spécifier le modèle, le profil d'inférence ou l'invite à utiliser depuis Prompt Management. Pour savoir comment trouver cette valeur, consultezSoumettre des invites et générer des réponses à l'aide de l'API. |
body | Pour spécifier les paramètres d'inférence d'un modèle. Pour consulter les paramètres d'inférence des différents modèles, voirParamètres de demande d'inférence et champs de réponse pour les modèles de base. Si vous spécifiez une invite dans le modelId champ Gestion des invites, omettez ce champ (si vous l'incluez, il sera ignoré). |
Les champs suivants sont facultatifs :
Champ | Cas d’utilisation |
---|---|
accepter | Pour spécifier le type de média pour le corps de la demande. Pour plus d'informations, consultez la section Types de médias sur le Swagger site Web |
contentType | Pour spécifier le type de support pour le corps de la réponse. Pour plus d'informations, consultez la section Types de médias sur le Swagger site Web |
explicitPromptCaching | Pour spécifier si la mise en cache rapide est activée ou désactivée. Pour de plus amples informations, veuillez consulter Mise en cache rapide pour une inférence de modèle plus rapide. |
Identifiant de garde-corps | Spécifier un garde-corps à appliquer à l'invite et à la réponse. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
Version avec garde-corps | Spécifier un garde-corps à appliquer à l'invite et à la réponse. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
tracer | Pour spécifier s'il faut renvoyer le tracé du garde-corps, vous spécifiez. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
Exemples d’invocation de code de modèle
Les exemples suivants montrent comment exécuter l'inférence avec l'InvokeModelAPI. Pour des exemples avec différents modèles, consultez la référence des paramètres d’inférence pour le modèle souhaité (Paramètres de demande d'inférence et champs de réponse pour les modèles de base).
L'exemple suivant enregistre la réponse générée à l'invite story of two dogs
dans un fichier appeléinvoke-model-output.txt
.
aws bedrock-runtime invoke-model \
--model-id anthropic.claude-v2 \
--body '{"prompt": "\n\nHuman: story of two dogs\n\nAssistant:", "max_tokens_to_sample" : 300}' \
--cli-binary-format raw-in-base64-out \
invoke-model-output.txt
Exemple d’invocation de modèle d’appel avec code de streaming
Note
Le AWS CLI ne prend pas en charge le streaming.
L'exemple suivant montre comment utiliser l'InvokeModelWithResponseStreamAPI pour générer du texte en streaming avec Python à l'aide de l'invitewrite an essay for living on mars in 1000
words
.
import boto3
import json
brt = boto3.client(service_name='bedrock-runtime')
body = json.dumps({
'prompt': '\n\nHuman: write an essay for living on mars in 1000 words\n\nAssistant:',
'max_tokens_to_sample': 4000
})
response = brt.invoke_model_with_response_stream(
modelId='anthropic.claude-v2',
body=body
)
stream = response.get('body')
if stream:
for event in stream:
chunk = event.get('chunk')
if chunk:
print(json.loads(chunk.get('bytes').decode()))