As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute inferência em um modelo por meio da API enviando uma InvokeModelWithResponseStreamsolicitação InvokeModelor. Para verificar se um modelo suporta streaming, envie uma ListFoundationModelssolicitação GetFoundationModelor e verifique o valor no responseStreamingSupported
campo.
Os campos a seguir são obrigatórios:
Campo | Caso de uso |
---|---|
modelId | Para especificar o modelo, o perfil de inferência ou o prompt do gerenciamento de Prompt a ser usado. Para saber como encontrar esse valor, consulte Enviar prompts e gerar respostas usando a API. |
body | Especificar os parâmetros de inferência para um modelo. Para consultar os parâmetros de inferência para diversos modelos, consulteParâmetros de solicitação de inferência e campos de resposta para modelos de base. Se você especificar uma solicitação do Gerenciamento de solicitações no modelId campo, omita esse campo (se você incluí-lo, ele será ignorado). |
Os seguintes campos são opcionais:
Campo | Caso de uso |
---|---|
aceitar | Especificar o tipo de mídia para o corpo da solicitação. Para obter mais informações, consulte Tipos de mídia no Swagger site |
contentType | Especificar o tipo de mídia para o corpo da resposta. Para obter mais informações, consulte Tipos de mídia no Swagger site |
explicitPromptCaching | Para especificar se o cache de prompts está ativado ou desativado. Para obter mais informações, consulte Cache imediato para inferência mais rápida do modelo. |
guardrailIdentifier | Especificar uma barreira de proteção a ser aplicada ao prompt e à resposta. Para obter mais informações, consulte Testar uma barreira de proteção. |
guardrailVersion | Especificar uma barreira de proteção a ser aplicada ao prompt e à resposta. Para obter mais informações, consulte Testar uma barreira de proteção. |
trace | Especificar se o rastreamento da barreira de proteção especificada deve ser retornado. Para obter mais informações, consulte Testar uma barreira de proteção. |
Exemplos de código de invocação de modelos
Os exemplos a seguir mostram como executar inferência com a InvokeModelAPI. Para conferir exemplos com modelos diferentes, consulte a referência do parâmetros de inferência do modelo desejado (Parâmetros de solicitação de inferência e campos de resposta para modelos de base).
O exemplo a seguir salva a resposta gerada story of two dogs
ao prompt em um arquivo chamadoinvoke-model-output.txt
.
aws bedrock-runtime invoke-model \
--model-id anthropic.claude-v2 \
--body '{"prompt": "\n\nHuman: story of two dogs\n\nAssistant:", "max_tokens_to_sample" : 300}' \
--cli-binary-format raw-in-base64-out \
invoke-model-output.txt
Exemplo de código de invocação de modelos com streaming
nota
O AWS CLI não suporta streaming.
O exemplo a seguir mostra como usar a InvokeModelWithResponseStreamAPI para gerar streaming de texto com Python usando o prompt. write an essay for living on mars in 1000
words
import boto3
import json
brt = boto3.client(service_name='bedrock-runtime')
body = json.dumps({
'prompt': '\n\nHuman: write an essay for living on mars in 1000 words\n\nAssistant:',
'max_tokens_to_sample': 4000
})
response = brt.invoke_model_with_response_stream(
modelId='anthropic.claude-v2',
body=body
)
stream = response.get('body')
if stream:
for event in stream:
chunk = event.get('chunk')
if chunk:
print(json.loads(chunk.get('bytes').decode()))