View a markdown version of this page

Interface do SageMaker - Amazon Nova

Interface do SageMaker

Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.

O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte Implantar modelos para inferência.

Importante

Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.

Recursos

Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:

Recursos dos modelos

  • Geração de texto

Implantação e escalabilidade

  • Endpoints em tempo real com seleção de instância personalizada

  • Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte Ajuste de escala automático de modelos do Amazon SageMaker.

  • Suporte à API de streaming para geração de tokens em tempo real

Monitoramento e otimização

  • Integração do Amazon CloudWatch para monitoramento e alertas

  • Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC

ferramentas de desenvolvimento da

Modelos e instâncias compatíveis

Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: CONTEXT_LENGTH e MAX_CONCURRENCY.

  • CONTEXT_LENGTH: tamanho máximo total do token (entrada + saída) por solicitação

  • MAX_CONCURRENCY: número máximo de solicitações simultâneas atendidas pelo endpoint

A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX_CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT_LENGTH:

Modelo Tipo de instância Configurações compatíveis Quantização FP8 necessária
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6

Não
ml.g5.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8 Não
ml.g6e.xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Não
ml.g6e.2xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Não
ml.g6e.4xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4

Não
ml.g6.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6

Não
ml.g6.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8 Não
ml.g6.48xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 12 Não
ml.p5.48xlarge

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8

Não
Amazon Nova Lite ml.g6.12xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2

Sim — habilitado por padrão
ml.g6.24xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4

Sim — habilitado por padrão
ml.g6.48xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 16

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8

Não
ml.p5.48xlarge

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 60000, MAX_CONCURRENCY: 8

Não
Nova 2 Lite ml.g6.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8

Sim — habilitado por padrão
ml.p5.48xlarge

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128

CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8

Não
nota

Para casos em que a quantização de FP8 é necessária, ela será ativada por padrão.

Os valores de MAX_CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT_LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.

Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → Válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rejeitado (o limite de simultaneidade é 6 no tamanho de contexto 8000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Válido

  • CONTEXT_LENGTH=10000 → Rejeitado (a extensão máxima do contexto é 8.000 nesta instância)

Regiões do AWS compatíveis

A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:

Nome da Região Código da região Disponibilidade
Leste dos EUA (Norte da Virgínia) us-east-1 Available (Disponível)
Oeste dos EUA (Oregon) us-west-2 Available (Disponível)

Imagens de contêineres compatíveis

A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região.

Região URIs das imagens de contêineres
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Práticas recomendadas

Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte Práticas recomendadas do SageMaker.

Suporte

Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.