Opções de implantação do modelo no Amazon SageMaker
Depois de treinar seu modelo de machine learning, você pode implantá-lo usando o Amazon SageMaker para obter predições. O Amazon SageMaker oferece apoio às seguintes formas de implantar um modelo dependendo do seu caso de uso:
-
Para endpoints persistentes e em tempo real que fazem uma predição por vez, use os serviços de hospedagem em tempo real do SageMaker. Consulte Inferência em tempo real.
-
Workloads que têm períodos de inatividade entre surtos de tráfego e podem tolerar arranques a frio usam a Inferência Sem Servidor. Consulte Implantar modelos com a Inferência Sem Servidor do Amazon SageMaker.
-
Solicitações com cargas úteis de até 1 GB, tempos de processamento longos e requisitos de latência quase em tempo real usam a inferência assíncrona do Amazon SageMaker. Consulte Inferência assíncrona.
-
Para obter predições para um conjunto de dados inteiro, use a transformação em lote do SageMaker. Consulte Transformação em lote para inferência com o Amazon SageMaker.
O SageMaker fornece funcionalidades para gerenciar atributos e otimizar o desempenho de inferência ao implantar modelos de machine learning:
-
Para gerenciar modelos em dispositivos de borda para que você possa otimizar, proteger, monitorar e manter modelos de machine learning em frotas de dispositivos periféricos, consulte Implantação de modelos na borda com o SageMaker Edge Manager. Isso se aplica a dispositivos de borda, como câmeras inteligentes, robôs, computadores pessoais e dispositivos móveis.
-
Para otimizar os modelos Gluon, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite e ONNX para inferência em máquinas Android, Linux e Windows baseadas em processadores de Ambarella, ARM, Intel, Nvidia, NXP, Qualcomm, Texas Instruments e Xilinx, consulte Otimização do desempenho do modelo com o SageMaker Neo.
Para obter mais informações sobre todas as opções de implantação, consulte Implantar modelos para inferência.