Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Recursos compatíveis

Modo de foco
Recursos compatíveis - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

A Amazon SageMaker AI oferece as quatro opções a seguir para implantar modelos para inferência.

  • Inferência em tempo real para workloads de inferência com requisitos em tempo real, interativos e de baixa latência.

  • Transformação em lote para inferência offline com grandes conjuntos de dados.

  • Inferência assíncrona para near-real-time inferência com grandes entradas que exigem tempos de pré-processamento mais longos.

  • Inferência sem servidor para cargas de trabalho de inferência que têm períodos de inatividade entre picos de tráfego.

A tabela a seguir resume os principais atributos da plataforma que são compatíveis com cada opção de inferência. Ele não mostra atributos que podem ser fornecidos por estruturas, contêineres Docker personalizados ou por meio do encadeamento de diferentes serviços da AWS >

Atributo Inferência em tempo real Transformação em lote Inferência assíncrona Inferência sem servidor Contêineres de docker
Suporte de escalonamento automático N/D N/D
Suporte para GPU 1 1 1 1P, pré-construído, BYOC
Modelo único N/D
Endpoints de vários modelos k-nn,, Linear Learner XGBoost, RCF, MXNet Apache TensorFlow, scikit-learn 2 PyTorch
Endpoint com vários contêineres 1P, pré-construído, Estender pré-construído, BYOC
Pipeline de inferência serial 1P, pré-construído, Estender pré-construído, BYOC
Inference Recommender 1P, pré-construído, Estender pré-construído, BYOC
Suporte ao link privado N/D
Suporte para captura de dados/monitor de modelos N/D
DLCs suportado 1P, pré-construído, Estender pré-construído, BYOC 1P, pré-construído, Estender pré-construído, BYOC 1P, pré-construído, Estender pré-construído, BYOC 1P, pré-construído, Estender pré-construído, BYOC N/D
Protocolos compatíveis HTTP(S) HTTP(S) HTTP(S) HTTP(S) N/D
Tamanho da carga útil < 6 MB ≤ 100 MB ≤ 1 GB ≤ 4 MB
Codificação HTTP em partes Depende da estrutura, 1P não suportado N/D Depende da estrutura, 1P não suportado Depende da estrutura, 1P não suportado N/D
Tempo limite da solicitação < 60 segundos Dias < 1 hora < 60 segundos N/D
Barreiras de proteção de implantação: implantações azuis/verdes N/D N/D
Barreiras de proteção de implantação: implantações contínuas N/D N/D
Testes de validação por comparação N/D
Escalabilidade para zero N/D N/D
Suporte para pacotes de modelos do Market Place N/D
Suporte para nuvens privadas virtuais N/D
Suporte a múltiplas variantes de produção N/D
Isolamento de rede N/D
Modele o suporte de atendimento paralelo 3 3 3
Criptografia de volumes N/D
Cliente AWS KMS N/D
Instâncias compatíveis N/D
suporte inf1

Com a SageMaker IA, você pode implantar um único modelo ou vários modelos por trás de um único endpoint de inferência para inferência em tempo real. A tabela a seguir resume os principais atributos suportados por várias opções de hospedagem que vêm com inferência em tempo real.

Atributo Endpoints de modelo único Endpoints de vários modelos Pipeline de inferência serial Endpoint com vários contêineres
Suporte de escalonamento automático
Suporte para GPU 1
Modelo único
Endpoints de vários modelos N/D
Endpoint com vários contêineres N/D
Pipeline de inferência serial N/D
Inference Recommender
Suporte ao link privado
Suporte para captura de dados/monitor de modelos N/D N/D N/D
DLCs suportado 1P, pré-construído, Estender pré-construído, BYOC k-nn,, Linear Learner XGBoost, RCF, MXNet Apache TensorFlow, scikit-learn 2 PyTorch 1P, pré-construído, Estender pré-construído, BYOC 1P, pré-construído, Estender pré-construído, BYOC
Protocolos compatíveis HTTP(S) HTTP(S) HTTP(S) HTTP(S)
Tamanho da carga útil < 6 MB < 6 MB < 6 MB < 6 MB
Tempo limite da solicitação < 60 segundos < 60 segundos < 60 segundos < 60 segundos
Barreiras de proteção de implantação: implantações azuis/verdes
Barreiras de proteção de implantação: implantações contínuas
Testes de validação por comparação
Suporte para pacotes de modelos do Market Place
Suporte para nuvens privadas virtuais
Suporte a múltiplas variantes de produção
Isolamento de rede
Modele o suporte de atendimento paralelo 3 3
Criptografia de volumes
Cliente AWS KMS
Instâncias compatíveis
suporte inf1

1 A disponibilidade dos tipos de EC2 instância da Amazon depende da AWS região. Para ver a disponibilidade de instâncias específicas de AWS, consulte Amazon SageMaker AI Pricing.

2 Para usar qualquer outra estrutura ou algoritmo, use o kit de ferramentas SageMaker AI Inference para criar um contêiner que ofereça suporte a endpoints de vários modelos.

3 Com a SageMaker IA, você pode implantar modelos grandes (até 500 GB) para inferência. Você pode configurar a verificação de integridade do contêiner e as cotas de tempo limite de download, de até 60 minutos. Isso permitirá que você tenha mais tempo para baixar e carregar seu modelo e os recursos associados. Para obter mais informações, consulte SageMaker Parâmetros de endpoint de IA para inferência de modelos grandes. Você pode usar contêineres de inferência de modelos grandes compatíveis com SageMaker IA. Você também pode usar bibliotecas de paralelização de modelos de terceiros, como Triton com e. FasterTransformer DeepSpeed Você precisa garantir que eles sejam compatíveis com a SageMaker IA.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.