Inferência do Amazon Bedrock.
Depois de treinar e testar seu modelo do Amazon Nova, você poderá implantá-lo no Amazon Bedrock para inferência em escala de produção. O processo de implantação envolve a criação de um modelo do Amazon Bedrock com a API CreateCustomModel, a exportação dos artefatos do seu modelo de um bucket gerenciado do Amazon S3 e, quando o modelo estiver ATIVO, a configuração de um endpoint com inferência de throughput sob demanda ou provisionada.
Depois de criar um modelo personalizado no SageMaker, você pode usar a API CreateCustomModel para implantá-lo no Amazon Bedrock do depósito do SageMaker para executar inferências. Você pode então usar CreateCustomModelDeployment para criar um endpoint de inferência de OD ou configurar a inferência de throughput provisionado para um modelo de ajuste fino com eficiência de parâmetros (PEFT). Você pode configurar a inferência de throughput provisionado para um modelo personalizado de full-rank.
Você também pode usar o Amazon Nova Forge SDK para implantar modelos personalizados do Amazon Nova. O Amazon Nova Forge SDK fornece uma experiência simplificada para extrair as informações relevantes de uma tarefa de treinamento ou de um ponto de verificação do modelo do S3 e publicá-los no Amazon Bedrock. Para obter mais informações, consulte Amazon Nova Forge SDK.
Para obter etapas detalhadas para configurar a inferência do Amazon Bedrock para um modelo personalizado, consulte Implantação de modelos personalizados do Amazon Nova no Amazon Bedrock.
A seção a seguir fornece mais detalhes sobre a inferência sob demanda em modelos personalizados.
Inferência sob demanda em modelos personalizados
A inferência sob demanda (OD) permite que você execute inferência em seus modelos personalizados do Amazon Nova sem manter endpoints de throughput provisionados. Isso ajuda a otimizar custos e escalar com eficiência. Com inferência sob demanda, a cobrança é baseada no uso medido em tokens, tanto de entrada quanto de saída.
Requisitos de compatibilidade
Os seguintes requisitos de compatibilidade se aplicam:
-
A inferência de OD é compatível com os modelos de compreensão personalizados do Amazon Nova Pro, Lite e Micro. A inferência OD não é compatível com os modelos de geração de conteúdo personalizados do Nova.
-
A inferência OD é compatível com os modelos de entendimento personalizados do Amazon Nova treinados depois de 16 de julho de 2025. Modelos personalizados treinados antes de 16 de julho de 2025 não são compatíveis com inferência OD.
-
Personalização do Amazon Bedrock: a inferência OD é compatível com modelos personalizados com a personalização do Amazon Bedrock e modelos aprendizes que foram destilados de um modelo instrutor com o Amazon Bedrock.
-
Personalização do SageMaker AI: para modelos personalizados no SageMaker AI, a inferência OD é compatível apenas com modelos ajustados com eficiência de parâmetros (PEFT) quando o modelo está hospedado no Amazon Bedrock. Isso inclui a Otimização Direta de Preferências e PEFT. A inferência OD não é compatível com modelos completamente ajustados.
Treinamento de modelo e inferência
Quando você treinar um novo modelo personalizado do Amazon Nova Pro, Lite ou Micro no Amazon Bedrock ou no SageMaker AI usando PEFT após 16 de julho de 2025, o modelo será automaticamente compatível com as opções de inferência provisionada e sob demanda. Você pode selecionar seu método de inferência preferido ao implantar o modelo.
Para usar a inferência OD com um modelo treinado após 16 de julho de 2025, conclua as seguintes etapas:
-
Crie uma nova tarefa de ajuste com a API de personalização do Amazon Bedrock ou com a API de personalização do SageMaker AI.
-
Implante o modelo recém-treinado no Amazon Bedrock usando a API CreateCustomModel.
-
Implante para inferência sob demanda usando a API CustomModelDeployment.
Limites de taxa
Os seguintes limites de solicitações por minuto (RPM) e tokens por minuto (TPM) se aplicam às solicitações de inferência sob demanda:
| Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment |
|---|---|---|
| Nova 2 Lite | 2,000 | 4,000,000 |
Para saber mais sobre as cotas disponíveis para o Amazon Nova, consulte Cotas do Amazon Nova.
Latência
Você pode esperar uma diferença de latência de ponta a ponta (ou seja, tempo até o primeiro token (TTFT)) de 20% a 55% entre a invocação do modelo básico e o adaptador. O valor exato da latência varia de acordo com o tamanho do modelo e está dentro dos padrões do setor.