As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AI21 LabsModelos Jamba-Instruct
Esta seção fornece parâmetros de inferência e um exemplo de código para o uso de AI21 Jamba-Instruct modelos.
Tópicos
Campos obrigatórios
O modelo Jamba-Instruct do AI21 Labs suporta os seguintes campos obrigatórios:
-
Mensagens (
messages
) — As mensagens anteriores neste chat, da mais antiga (índice 0) à mais recente. Deve ter pelo menos uma mensagem de usuário ou assistente na lista. Inclua as entradas do usuário e as respostas do sistema. O tamanho total máximo da lista é de cerca de 256 mil tokens. Cada mensagem inclui os seguintes membros: -
Função (
role
) — A função do autor da mensagem. Um dos seguintes valores:-
Usuário (
user
) — Entrada fornecida pelo usuário. Quaisquer instruções fornecidas aqui que entrem em conflito com as instruções dadas nosystem
prompt têm precedência sobre as instruções dosystem
prompt. -
Assistente (
assistant
) — Resposta gerada pelo modelo. -
Sistema (
system
) — Instruções iniciais fornecidas ao sistema para fornecer orientação geral sobre o tom e a voz da mensagem gerada. Uma mensagem inicial do sistema é opcional, mas é recomendada para fornecer orientação sobre o tom do bate-papo. Por exemplo, “Você é um chatbot útil com formação em ciências da terra e um charmoso sotaque francês”.
-
-
Conteúdo (
content
) — O conteúdo da mensagem.
Parâmetros de inferência
O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros de inferência.
Aleatoriedade e diversidade
O modelo Jamba-Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a aleatoriedade e a diversidade na resposta.
-
Temperatura (
temperature
) — Quanta variação fornecer em cada resposta. Definir esse valor como 0 garante sempre a mesma resposta à mesma pergunta. Definir um valor mais alto incentiva mais variações. Modifica a distribuição da qual os tokens são amostrados. Padrão: 1,0, Intervalo: 0,0 — 2,0 -
Top P (
top_p
) — Limite o conjunto dos próximos tokens em cada etapa ao percentil N superior dos tokens possíveis, onde 1,0 significa o conjunto de todos os tokens possíveis e 0,01 significa o pool somente dos próximos tokens mais prováveis.
Length
O modelo Jamba Instruct do AI21 Labs suporta os seguintes parâmetros para controlar a duração da resposta gerada.
-
Comprimento máximo de conclusão (
max_tokens
) — O número máximo de tokens permitidos para cada mensagem de resposta gerada. Normalmente, a melhor maneira de limitar o tamanho da saída é fornecendo um limite de tamanho no prompt do sistema (por exemplo, “limite suas respostas a três frases”). Padrão: 4096, Intervalo: 0 — 4096. -
Sequências de parada (
stop
) — Encerra a mensagem quando o modelo gera uma dessas sequências de caracteres. A sequência de parada não está incluída na mensagem gerada. Cada sequência pode ter até 64K de comprimento e conter novas linhas como caracteres\n.Exemplos:
-
Cadeia de parada única com uma palavra e um ponto final: “macacos”.
-
Várias cadeias de caracteres de parada e uma nova linha: ["cat”, “dog”,” . “, “####”, "\n“]
-
-
Número de respostas (
n
) — Quantas respostas de bate-papo devem ser geradas. As notas n devem ser 1 para respostas de streaming. Se n for definido como maior que 1, a configuraçãotemperature=0
sempre falhará porque é garantido que todas as respostas sejam duplicadas. Padrão: 1, Intervalo: 1 — 16
Repetições
Os modelos Jamba-Instruct do AI21 Labs suportam os seguintes parâmetros para controlar a repetição na resposta gerada.
-
Penalidade de frequência (
frequency_penalty
) — Reduza a frequência de palavras repetidas em uma única mensagem de resposta aumentando esse número. Essa penalidade aumenta gradualmente quanto mais vezes uma palavra aparece durante a geração da resposta. Definir como 2.0 produzirá uma string com poucas ou nenhuma palavra repetida. -
Penalidade de presença (
presence_penalty
) — Reduza a frequência de palavras repetidas em uma única mensagem aumentando esse número. Ao contrário da penalidade de frequência, a penalidade de presença é a mesma, não importa quantas vezes uma palavra apareça.
Campo do corpo da solicitação de invocação do modelo
Ao fazer uma InvokeModelWithResponseStreamchamada InvokeModelou usando um AI21 Labs modelo, preencha o body
campo com um objeto JSON que esteja em conformidade com o abaixo. Insira o prompt no campo prompt
.
{ "messages": [ { "role":"system", // Non-printing contextual information for the model "content":"You are a helpful history teacher. You are kind and you respond with helpful content in a professional manner. Limit your answers to three sentences. Your listener is a high school student." }, { "role":"user", // The question we want answered. "content":"Who was the first emperor of rome?" } ], "n":1 // Limit response to one answer }
Campo do corpo da resposta de invocação do modelo
Para obter informações sobre o formato do body
campo na resposta, consulte https://docs.ai21.com/reference/ jamba-instruct-api #response -details
Exemplo de código
Este exemplo mostra como chamar o modelo Jamba-Instruct do AI21 Labs.
invoke_model
import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.invoke_model( modelId='ai21.jamba-instruct-v1:0', body=json.dumps({ 'messages': [ { 'role': 'user', 'content': 'which llm are you?' } ], }) ) print(json.dumps(json.loads(response['body']), indent=4))
conversam
import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.converse( modelId='ai21.jamba-instruct-v1:0', messages=[ { 'role': 'user', 'content': [ { 'text': 'which llm are you?' } ] } ] ) print(json.dumps(json.loads(response['body']), indent=4))