Recursos Modelos e instâncias compatíveis Regiões do AWS compatíveis Imagens de contêineres compatíveis Práticas recomendadas Suporte

Interface do SageMaker

Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.

O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte Implantar modelos para inferência.

Importante

Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.

Recursos

Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:

Recursos dos modelos

Geração de texto

Implantação e escalabilidade

Endpoints em tempo real com seleção de instância personalizada
Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte Ajuste de escala automático de modelos do Amazon SageMaker.
Suporte à API de streaming para geração de tokens em tempo real

Monitoramento e otimização

Integração do Amazon CloudWatch para monitoramento e alertas
Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC

ferramentas de desenvolvimento da

Suporte da AWS CLI: para obter mais informações, consulte Referência de comandos da AWS CLI para o SageMaker.
Integração de cadernos via suporte do SDK

Modelos e instâncias compatíveis

Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: CONTEXT_LENGTH e MAX_CONCURRENCY.

CONTEXT_LENGTH: tamanho máximo total do token (entrada + saída) por solicitação
MAX_CONCURRENCY: número máximo de solicitações simultâneas atendidas pelo endpoint

A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX_CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT_LENGTH:

Modelo	Tipo de instância	Configurações compatíveis	Quantização FP8 necessária
Amazon Nova Micro	ml.g5.12xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6	Não
	ml.g5.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	Não
	ml.g6e.xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	Não
	ml.g6e.2xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	Não
	ml.g6e.4xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4	Não
	ml.g6.12xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 6	Não
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	Não
	ml.g6.48xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 12	Não
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8	Não
Amazon Nova Lite	ml.g6.12xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 2	Sim — habilitado por padrão
	ml.g6.24xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 4	Sim — habilitado por padrão
	ml.g6.48xlarge	CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	Não
	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60000, MAX_CONCURRENCY: 8	Não
Nova 2 Lite	ml.g6.48xlarge	CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 8	Sim — habilitado por padrão
Nova 2 Lite	ml.p5.48xlarge	CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000, MAX_CONCURRENCY: 8	Não

nota

Para casos em que a quantização de FP8 é necessária, ela será ativada por padrão.

Os valores de MAX_CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT_LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.

Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:

CONTEXT_LENGTH=2000, MAX_CONCURRENCY=12 → Válido
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rejeitado (o limite de simultaneidade é 6 no tamanho de contexto 8000)
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Válido
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Válido
CONTEXT_LENGTH=10000 → Rejeitado (a extensão máxima do contexto é 8.000 nesta instância)

Regiões do AWS compatíveis

A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:

Nome da Região	Código da região	Disponibilidade
Leste dos EUA (Norte da Virgínia)	us-east-1	Available (Disponível)
Oeste dos EUA (Oregon)	us-west-2	Available (Disponível)

Imagens de contêineres compatíveis

A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região.

Região	URIs das imagens de contêineres
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

Práticas recomendadas

Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte Práticas recomendadas do SageMaker.

Suporte

Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Treinamento iterativo

Introdução