Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Soumettez une seule invite avec InvokeModel
Exécutez une inférence sur un modèle via le API en envoyant une InvokeModelWithResponseStreamdemande InvokeModelor. Pour vérifier si un modèle prend en charge le streaming, envoyez une ListFoundationModelsdemande GetFoundationModelor et vérifiez la valeur dans le responseStreamingSupported
champ.
Les champs suivants sont obligatoires :
Champ | Cas d’utilisation |
---|---|
modelId | Pour spécifier le modèle, le profil d'inférence ou l'invite à utiliser depuis Prompt Management. Pour savoir comment trouver cette valeur, consultezSoumettez des invites et générez des réponses à l'aide du API. |
body | Pour spécifier les paramètres d'inférence d'un modèle. Pour consulter les paramètres d'inférence des différents modèles, voirParamètres de demande d'inférence et champs de réponse pour les modèles de base. Si vous spécifiez une invite dans le modelId champ Gestion des invites, omettez ce champ (si vous l'incluez, il sera ignoré). |
Les champs suivants sont facultatifs :
Champ | Cas d’utilisation |
---|---|
accepter | Pour spécifier le type de média pour le corps de la demande. Pour plus d'informations, consultez la section Types de médias sur le Swagger site Web |
contentType | Pour spécifier le type de support pour le corps de la réponse. Pour plus d'informations, consultez la section Types de médias sur le Swagger site Web |
explicitPromptCaching | Pour spécifier si la mise en cache rapide est activée ou désactivée. Pour de plus amples informations, veuillez consulter Mise en cache rapide pour une inférence de modèle plus rapide. |
guardrailIdentifier | Spécifier un garde-corps à appliquer à l'invite et à la réponse. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
guardrailVersion | Spécifier un garde-corps à appliquer à l'invite et à la réponse. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
tracer | Pour spécifier s'il faut renvoyer le tracé du garde-corps, vous spécifiez. Pour de plus amples informations, veuillez consulter Testez un garde-corps. |
Exemples d’invocation de code de modèle
Les exemples suivants montrent comment exécuter une inférence avec le InvokeModelAPI. Pour des exemples avec différents modèles, consultez la référence des paramètres d’inférence pour le modèle souhaité (Paramètres de demande d'inférence et champs de réponse pour les modèles de base).
Exemple d’invocation de modèle d’appel avec code de streaming
Note
Le AWS CLI ne prend pas en charge le streaming.
L'exemple suivant montre comment utiliser le InvokeModelWithResponseStreamAPIpour générer du texte en streaming avec Python à l'aide de l'invitewrite an essay for living on mars in 1000
words
.
import boto3 import json brt = boto3.client(service_name='bedrock-runtime') body = json.dumps({ 'prompt': '\n\nHuman: write an essay for living on mars in 1000 words\n\nAssistant:', 'max_tokens_to_sample': 4000 }) response = brt.invoke_model_with_response_stream( modelId='anthropic.claude-v2', body=body ) stream = response.get('body') if stream: for event in stream: chunk = event.get('chunk') if chunk: print(json.loads(chunk.get('bytes').decode()))