As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O Amazon SageMaker Training é um serviço de aprendizado de máquina (ML) totalmente gerenciado oferecido pela SageMaker que ajuda você a treinar com eficiência uma ampla variedade de modelos de ML em grande escala. O núcleo dos trabalhos de SageMaker IA é a conteinerização das cargas de trabalho de ML e a capacidade de gerenciar AWS recursos computacionais. A plataforma de SageMaker treinamento cuida do trabalho pesado associado à configuração e gerenciamento da infraestrutura para cargas de trabalho de treinamento de ML. Com o SageMaker treinamento, você pode se concentrar em desenvolver, treinar e ajustar seu modelo. Esta página apresenta três maneiras recomendadas de começar a treinar um modelo SageMaker, seguidas por opções adicionais que você pode considerar.
dica
Para obter informações sobre modelos básicos de treinamento para IA generativa, consulte Usar modelos JumpStart básicos de SageMaker IA no Amazon SageMaker Studio.
Escolha de um recurso no Amazon SageMaker Training
Há três casos de uso principais para treinar modelos de ML dentro da SageMaker IA. Esta seção descreve esses casos de uso, bem como os recursos de SageMaker IA que recomendamos para cada caso de uso.
Se você está treinando modelos complexos de aprendizado profundo ou implementando algoritmos menores de aprendizado de máquina, o SageMaker Training fornece soluções simplificadas e econômicas que atendem aos requisitos de seus casos de uso.
Casos de uso
A seguir estão os principais casos de uso para treinar modelos de ML dentro da SageMaker IA.
-
Caso de uso 1: desenvolver um modelo de machine learning em um ambiente com ou sem código.
-
Caso de uso 2: usar código para desenvolver modelos de machine learning com mais flexibilidade e controle.
-
Caso de uso 3: desenvolver modelos de machine learning em grande escala com o máximo de flexibilidade e controle.
Recursos recomendados
A tabela a seguir descreve três cenários comuns de treinamento de modelos de ML e as opções correspondentes para começar a usar o SageMaker treinamento.
Descritor | Caso de uso 1 | Caso de uso 2 | Caso de uso 3 |
---|---|---|---|
SageMaker Recurso de IA | Crie um modelo usando o Amazon SageMaker Canvas. | Treine um modelo usando um dos algoritmos de ML integrados de SageMaker IA, como modelos específicos XGBoostde tarefas, SageMaker JumpStart com o SDK do Python SageMaker . | Treine um modelo em grande escala com a máxima flexibilidade, aproveitando o modo de script |
Descrição | Traga seus dados. SageMaker A IA ajuda a gerenciar a criação de modelos de ML e a configuração da infraestrutura e dos recursos de treinamento. |
Traga seus dados e escolha um dos algoritmos de ML integrados fornecidos pela SageMaker IA. Configure os hiperparâmetros do modelo, as métricas de saída e as configurações básicas de infraestrutura usando o SDK do SageMaker Python. A plataforma SageMaker de treinamento ajuda a provisionar a infraestrutura e os recursos de treinamento. |
Desenvolva seu próprio código de ML e leve-o como um script ou um conjunto de scripts para a SageMaker IA. Para saber mais, consulte Computação distribuída com as SageMaker melhores práticas. Além disso, você pode trazer seu próprio contêiner do Docker. A plataforma SageMaker de treinamento ajuda a provisionar a infraestrutura e os recursos de treinamento em grande escala com base em suas configurações personalizadas. |
Otimizado para |
Desenvolvimento de modelos com baixo ou nenhum código e orientado por interface de usuário com rápida experimentação com um conjunto de dados de treinamento. Quando você cria um modelo personalizado, um algoritmo é selecionado automaticamente com base nos seus dados. Para opções avançadas de personalização, como seleção de algoritmos, consulte configurações avançadas de criação de modelos. |
Treinamento de modelos de ML com personalização de alto nível para hiperparâmetros, configurações de infraestrutura e a capacidade de usar diretamente estruturas de ML e scripts de ponto de entrada para obter mais flexibilidade. Use algoritmos integrados, modelos pré-treinados e JumpStart modelos por meio do SDK do Amazon SageMaker Python |
Workloads de treinamento de ML em grande escala, exigindo várias instâncias e máxima flexibilidade. Veja a computação distribuída com SageMaker as melhores práticas. SageMaker A IA usa imagens do Docker para hospedar o treinamento e a exibição de todos os modelos. Você pode usar qualquer SageMaker IA ou algoritmo externo e usar contêineres do Docker para criar modelos. |
Considerações |
Flexibilidade mínima para personalizar o modelo fornecido pelo Amazon SageMaker Canvas. |
O SDK do SageMaker Python fornece uma interface simplificada e menos opções de configuração em comparação com a API de treinamento de baixo nível SageMaker . |
Requer conhecimento da AWS infraestrutura e das opções de treinamento distribuído. Consulte também Crie seu próprio contêiner de treinamento usando o kit de ferramentas de SageMaker treinamento. |
Ambiente recomendado | Use o Amazon SageMaker Canvas. Para saber como configurá-lo, consulte Introdução ao uso do SageMaker Canvas. | Use a SageMaker IA JupyterLab no Amazon SageMaker Studio. Para saber como configurá-lo, consulte Launch Amazon SageMaker Studio. | Use SageMaker JupyterLabdentro do Amazon SageMaker Studio. Para saber como configurá-lo, consulte Launch Amazon SageMaker Studio. |
Opções adicionais
SageMaker A IA oferece as seguintes opções adicionais para treinar modelos de ML.
SageMaker Recursos de IA que oferecem recursos de treinamento
-
SageMaker JumpStart: SageMaker JumpStart fornece acesso ao hub de modelos públicos de SageMaker IA que contém os modelos básicos proprietários e disponíveis publicamente mais recentes (FMs). Você pode ajustar, avaliar e implantar esses modelos no Amazon SageMaker Studio. SageMaker JumpStart simplifica o processo de aproveitar modelos básicos para seus casos de uso generativos de IA e permite que você crie hubs de modelos privados para usar modelos básicos, ao mesmo tempo em que impõe barreiras de governança e garante que sua organização só possa acessar modelos aprovados. Para começar SageMaker JumpStart, consulte SageMaker JumpStart Foundation Models.
-
SageMaker HyperPod: SageMaker HyperPod é um serviço de cluster persistente para casos de uso que precisam de clusters resilientes para grandes cargas de trabalho de aprendizado de máquina (ML) e desenvolvimento de modelos state-of-the-art básicos (FMs). Ele acelera o desenvolvimento desses modelos ao eliminar o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala alimentados por milhares de aceleradores, como AWS Trainium ou unidades de processamento gráfico NVIDIA A100 e H100 (). GPUs Você pode usar um software de gerenciamento de carga de trabalho, como o Slurm on. HyperPod
Mais recursos do SageMaker treinamento
-
Ajuste de hiperparâmetros: esse recurso de SageMaker IA ajuda a definir um conjunto de hiperparâmetros para um modelo e a iniciar muitos trabalhos de treinamento em um conjunto de dados. Dependendo dos valores dos hiperparâmetros, o desempenho do treinamento de modelo pode variar. Esse atributo fornece o conjunto de hiperparâmetros com melhor desempenho dentro do intervalo determinado de hiperparâmetros que você configurou para pesquisar.
-
Treinamento distribuído: pré-treine ou faça ajustes finos com PyTorch o NVIDIA CUDA e outras estruturas FMs baseadas. PyTorch Para utilizar com eficiência as instâncias de GPU, use as bibliotecas de treinamento distribuídas de SageMaker IA que oferecem operações de comunicação coletiva e várias técnicas de paralelismo de modelos, como paralelismo especializado e paralelismo de dados compartilhados, otimizadas para infraestrutura. AWS
-
Recursos de observabilidade: use as funcionalidades de criação de perfil e depuração do SageMaker Training para obter informações sobre as cargas de trabalho de treinamento do modelo, o desempenho do modelo e a utilização de recursos. Para saber mais, consulte Depurar e melhorar o desempenho do modelo e Criar perfil e otimizar o desempenho computacional.
-
Opções de instância econômicas e eficientes: para otimizar o custo e a eficiência computacional para o provisionamento de instâncias de treinamento, use clusters heterogêneos, instâncias spot gerenciadas ou pools aquecidos gerenciados.