

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Implantar modelos para inferência
<a name="deploy-model"></a>

Com a Amazon SageMaker AI, você pode começar a obter previsões ou *inferências* de seus modelos treinados de aprendizado de máquina. SageMaker A IA fornece uma ampla seleção de opções de implantação de modelos e infraestrutura de ML para ajudar a atender a todas as suas necessidades de inferência de ML. Com o SageMaker AI Inference, você pode escalar a implantação do seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional. SageMaker A IA fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência, endpoints sem servidor para infraestrutura totalmente gerenciada e auto-scaling e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo.

## Escolha de um atributo
<a name="deploy-model-choose"></a>

Há vários casos de uso para implantar modelos de ML com SageMaker IA. Esta seção descreve esses casos de uso, bem como o recurso de SageMaker IA que recomendamos para cada caso de uso. 

### Casos de uso
<a name="deploy-model-use-cases"></a>

A seguir estão os principais casos de uso para implantar modelos de ML com SageMaker IA.
+ **Caso de uso 1: implantar um modelo de machine learning em um ambiente low-code ou no-code.** Para iniciantes ou iniciantes na SageMaker IA, você pode implantar modelos pré-treinados usando a Amazon SageMaker JumpStart por meio da interface do Amazon SageMaker Studio, sem a necessidade de configurações complexas.
+ **Caso de uso 2: usar o código para implantar modelos de machine learning com mais flexibilidade e controle.** Profissionais experientes de ML podem implantar seus próprios modelos com configurações personalizadas para as necessidades de seus aplicativos usando a `ModelBuilder` classe no SDK SageMaker AI Python, que fornece controle refinado sobre várias configurações, como tipos de instância, isolamento de rede e alocação de recursos.
+ **Caso de uso 3: implantar modelos de machine learning em grande escala.** Para usuários avançados e organizações que desejam gerenciar modelos em grande escala na produção, use a AWS SDK para Python (Boto3) e CloudFormation junto com a infraestrutura como código (IaC) e as CI/CD ferramentas desejadas para provisionar recursos e automatizar o gerenciamento de recursos.

### Recursos recomendados
<a name="deploy-model-recommended"></a>

A tabela a seguir descreve as principais considerações e compensações dos recursos de SageMaker IA correspondentes a cada caso de uso.


|  | Caso de uso 1 | Caso de uso 2 | Caso de uso 3 | 
| --- | --- | --- | --- | 
| SageMaker Recurso de IA | Use [ JumpStart no Studio](jumpstart-foundation-models-use-studio-updated.md) para acelerar a implantação do seu modelo básico. | Implante modelos usando [o ModelBuilder SDK do SageMaker Python](how-it-works-modelbuilder-creation.md). |  [Implemente e gerencie modelos em grande escala com CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/AWS_SageMaker.html). | 
| Description | Use a interface do usuário do Studio para implantar modelos pré-treinados de um catálogo em endpoints de inferência pré-configurados. Essa opção é ideal para cientistas de dados civis ou para qualquer pessoa que queira implantar um modelo sem definir configurações complexas. | Use a ModelBuilder classe do Amazon SageMaker AI Python SDK para implantar seu próprio modelo e definir as configurações de implantação. Essa opção é ideal para cientistas de dados experientes ou para qualquer pessoa que tenha seu próprio modelo para implantar e precise de um controle refinado. | Uso CloudFormation e infraestrutura como código (IaC) para controle programático e automação para implantação e gerenciamento SageMaker de modelos de IA. Essa opção é ideal para usuários avançados que precisam de implantações consistentes e reproduzíveis. | 
| Otimizado para | Implantações rápidas e simplificadas de modelos de código aberto mais conhecidos | Implantação dos modelos próprios | Gerenciamento contínuo de modelos em produção | 
| Considerações | Falta de personalização das configurações do contêiner e das necessidades específicas da aplicação | Sem interface de usuário, requer que você se a vontade para desenvolver e manter o código Python | Requer gerenciamento de infraestrutura e recursos organizacionais, além de exigir familiaridade com os CloudFormation modelos AWS SDK para Python (Boto3) ou com eles. | 
| Ambiente recomendado | Um domínio de SageMaker IA | Um ambiente de desenvolvimento do Python configurado com suas AWS credenciais e o SDK do SageMaker Python instalado, ou um IDE de IA, como SageMaker [SageMaker JupyterLab](studio-updated-jl.md) | O AWS CLI, um ambiente de desenvolvimento local e Infraestrutura como Código (IaC) e ferramentas CI/CD  | 

### Opções adicionais
<a name="deploy-model-additional"></a>

SageMaker A IA oferece opções diferentes para seus casos de uso de inferência, oferecendo opções sobre a amplitude técnica e a profundidade de suas implantações:
+ **Implantação de um modelo em um endpoint.** Ao implantar o modelo, considere as seguintes opções:
  + [Inferência em tempo real](realtime-endpoints.md). A inferência em tempo real é ideal para workloads de inferência com requisitos interativos e de baixa latência.
  + [Implante modelos com o Amazon SageMaker Serverless Inference](serverless-endpoints.md). Use a Inferência Sem Servidor para implantar modelos sem configurar ou gerenciar nenhuma infraestrutura subjacente. Essa opção é ideal para workloads que têm períodos de inatividade entre picos de tráfego e podem tolerar inicializações a frio.
  + [Inferência assíncrona](async-inference.md). enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), tempos de processamento longos (até uma hora) e requisitos de latência quase em tempo real.
+ **Otimização de custo.** Para otimizar os custos de inferência, considere as seguintes opções:
  + [Otimização do desempenho do modelo com o SageMaker Neo](neo.md). Use SageMaker o Neo para otimizar e executar seus modelos de aprendizado de máquina com melhor desempenho e eficiência, ajudando você a minimizar os custos de computação ao otimizar automaticamente os modelos para execução em ambientes como chips AWS Inferentia.
  + [Escalabilidade automática dos modelos de SageMaker IA da Amazon](endpoint-auto-scaling.md). Use o ajuste de escala automático para ajustar dinamicamente os recursos computacionais dos endpoints com base nos padrões de tráfego de entrada, o que ajuda a otimizar os custos ao pagar apenas pelos recursos que você está usando em um momento específico.