As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Experimentos de aprendizado de máquina usando a Amazon SageMaker com MLflow
O Amazon SageMaker with MLflow é um recurso da Amazon SageMaker que permite criar, gerenciar, analisar e comparar seus experimentos de aprendizado de máquina.
Experimentação em machine learning
O aprendizado de máquina é um processo iterativo que requer experiências com várias combinações de dados, algoritmos e parâmetros, observando seu impacto na precisão do modelo. A natureza iterativa da experimentação de ML resulta em várias execuções e versões de treinamento de modelos, tornando difícil rastrear os modelos com melhor desempenho e suas configurações. A complexidade de gerenciar e comparar treinamentos iterativos aumenta com a inteligência artificial generativa (IA generativa), na qual a experimentação envolve não apenas o ajuste fino dos modelos, mas também a exploração de resultados criativos e diversos. Os pesquisadores devem ajustar os hiperparâmetros, selecionar arquiteturas de modelos adequadas e organizar diversos conjuntos de dados para otimizar a qualidade e a criatividade do conteúdo gerado. A avaliação de modelos generativos de IA requer métricas quantitativas e qualitativas, adicionando outra camada de complexidade ao processo de experimentação.
Use MLflow com SageMaker a Amazon para rastrear, organizar, visualizar, analisar e comparar a experimentação iterativa de ML para obter insights comparativos e registrar e implantar seus modelos de melhor desempenho.
MLflowintegrações
Use MLflow enquanto treina e avalia modelos para encontrar os melhores candidatos para seu caso de uso. Você pode comparar o desempenho, os parâmetros e as métricas do modelo entre os experimentos na MLflow interface do usuário, acompanhar seus melhores modelos no MLflow Registro de modelos, registrá-los automaticamente como um SageMaker modelo e implantar modelos registrados SageMaker nos endpoints.
Amazon SageMaker com MLflow
Use MLflow para rastrear e gerenciar a fase de experimentação do ciclo de vida do aprendizado de máquina (ML) com AWS integrações para desenvolvimento, gerenciamento, implantação e rastreamento de modelos.
SageMaker Estúdio Amazon
Crie e gerencie servidores de rastreamento, execute notebooks para criar experimentos e acesse a MLflow interface do usuário para visualizar e comparar execuções de experimentos em todo o Studio.
SageMaker Registro de modelos
Gerencie versões de modelos e catalogue modelos para produção registrando automaticamente modelos do Registro de MLflow Modelos para o Registro de SageMaker Modelos. Para obter mais informações, consulte Registre SageMaker modelos automaticamente com o SageMaker Model Registry.
SageMaker Inferência
Prepare seus melhores modelos para implantação em um SageMaker endpoint usando o. ModelBuilder
Para obter mais informações, consulte Implante MLflow modelos com ModelBuilder.
AWS Identity and Access Management
Configure o acesso ao MLflow uso do controle de acesso baseado em função (RBAC) com. IAM Escreva políticas de IAM identidade para autorizar o MLflow APIs que pode ser chamado por um cliente de um servidor de MLflow rastreamento. Todos MLflow REST APIs são representados como IAM ações sob o prefixo sagemaker-mlflow
de serviço. Para obter mais informações, consulte Configurar IAM permissões para MLflow.
AWS CloudTrail
Visualize os AWS CloudTrail logins para ajudar você a habilitar a auditoria operacional e de risco, a governança e a conformidade de sua AWS conta. Para obter mais informações, consulte AWS CloudTrail troncos.
Amazon EventBridge
Automatize a revisão do modelo e o ciclo de vida da implantação usando MLflow eventos capturados pela Amazon. EventBridge Para obter mais informações, consulte EventBridge Eventos da Amazon.
Suportado Regiões da AWS
O Amazon SageMaker with geralmente MLflow está disponível em todas as regiões AWS comerciais em que o Amazon SageMaker Studio está disponível, exceto nas regiões e AWS GovCloud (US) regiões da China. SageMakercom MLflow está disponível somente AWS CLI na Europa (Zurique), Ásia-Pacífico (Hyderabad), Ásia-Pacífico (Melbourne) e Oeste do Canadá (Calgary). Regiões da AWS
Os servidores de rastreamento são lançados em uma única zona de disponibilidade dentro da região especificada.
Como funciona
Um servidor MLflow de rastreamento tem três componentes principais: computação, armazenamento de metadados de back-end e armazenamento de artefatos. A computação que hospeda o servidor de rastreamento e o armazenamento de metadados de back-end são hospedados com segurança na conta de serviço. SageMaker O armazenamento de artefatos reside em um bucket do Amazon S3 em sua AWS própria conta.
Um servidor de rastreamento tem umARN. Você pode usar isso ARN para se conectar MLflow SDK ao seu Servidor de Rastreamento e começar a registrar suas corridas de treinamento emMLflow.
Continue lendo para obter mais informações sobre os seguintes conceitos-chave:
Armazenamento de metadados de back-end
Quando você cria um servidor de MLflow rastreamento, um armazenamento de back-end
Armazenamento de artefatos
Para MLflow fornecer armazenamento persistente para metadados para cada execução, como pesos de modelos, imagens, arquivos de modelo e arquivos de dados para suas execuções de experimentos, você deve criar um armazenamento de artefatos usando o Amazon S3. O armazenamento de artefatos deve ser configurado em sua AWS conta e você deve dar MLflow acesso explícito ao Amazon S3 para acessar seu armazenamento de artefatos. Para obter mais informações, consulte Artifact Stores
MLflowTamanhos de servidores de rastreamento
Opcionalmente, você pode especificar o tamanho do seu servidor de rastreamento na interface do usuário do Studio ou com o AWS CLI parâmetro--tracking-server-size
. Você pode escolher entre "Small"
"Medium"
, "Large"
e. O tamanho padrão da configuração do servidor de MLflow rastreamento é"Small"
. Você pode escolher um tamanho dependendo do uso projetado do servidor de rastreamento, como o volume de dados registrados, o número de usuários e a frequência de uso.
Recomendamos usar um servidor de rastreamento pequeno para equipes de até 25 usuários, um servidor de rastreamento médio para equipes de até 50 usuários e um servidor de rastreamento grande para equipes de até 100 usuários. Presumimos que todos os usuários farão solicitações simultâneas ao seu Servidor de MLflow Rastreamento para fazer essas recomendações. Você deve selecionar o tamanho do servidor de rastreamento com base no padrão de uso esperado e nas TPS (transações por segundo) suportadas por cada servidor de rastreamento.
nota
A natureza da sua carga de trabalho e o tipo de solicitação que você faz ao servidor de rastreamento determinam o que TPS você vê.
Monitorando o tamanho do servidor | Sustentado TPS | Explosão TPS |
---|---|---|
Pequeno | Até 25 | Até 50 |
Médio | Até 50 | Até 100 |
Grande | Até 100 | Até 200 |
Rastreando versões do servidor
As seguintes MLflow versões estão disponíveis para uso com SageMaker:
MLflowversão | Versão do Python |
---|---|
MLflow2.13.2 |
Python 3.8 |
AWS CloudTrail troncos
AWS CloudTrail registra automaticamente as atividades relacionadas ao seu Servidor MLflow de Rastreamento. As seguintes API chamadas estão registradas: CloudTrail
-
CreateMlflowTrackingServer
-
DescribeMlflowTrackingServer
-
UpdateMlflowTrackingServer
-
DeleteMlflowTrackingServer
-
ListMlflowTrackingServers
-
CreatePresignedMlflowTrackingServer
-
StartMlflowTrackingServer
-
StopMlflowTrackingServer
Para obter mais informações sobre CloudTrail, consulte o Guia AWS CloudTrail do usuário.
EventBridge Eventos da Amazon
Use EventBridge para direcionar eventos do uso MLflow com aplicativos SageMaker de consumo em toda a sua organização. Os seguintes eventos são emitidos para EventBridge:
-
“Criação SageMaker de servidor de rastreamento”
-
“Servidor SageMaker de rastreamento criado”
-
“Falha na criação do servidor de SageMaker rastreamento”
-
“Atualização do servidor de SageMaker rastreamento”
-
“Servidor SageMaker de rastreamento atualizado”
-
“Falha na atualização do servidor de SageMaker rastreamento”
-
“Exclusão do servidor de SageMaker rastreamento”
-
“Servidor SageMaker de rastreamento excluído”
-
“Falha na exclusão do servidor de SageMaker rastreamento”
-
“SageMaker Iniciando o servidor de rastreamento”
-
“Servidor SageMaker de rastreamento iniciado”
-
“Falha na inicialização do servidor de SageMaker rastreamento”
-
“Parada do servidor de SageMaker rastreamento”
-
“Servidor SageMaker de rastreamento interrompido”
-
“Falha na parada do servidor de SageMaker rastreamento”
-
“SageMaker Acompanhamento da manutenção do servidor em andamento”
-
“Manutenção do servidor de SageMaker rastreamento concluída”
-
“Falha na manutenção do servidor de SageMaker rastreamento”
-
“Servidor de SageMaker MLFlow rastreamento criando execução”
-
“Criação SageMaker MLFlow de servidor de rastreamento RegisteredModel”
-
“Criação SageMaker MLFlow de servidor de rastreamento ModelVersion”
-
“SageMaker MLFlowEstágio de transição do servidor de rastreamento” ModelVersion
-
“Alias de modelo registrado da configuração do servidor de SageMaker MLFlow rastreamento”
Para obter mais informações sobre EventBridge, consulte o Guia EventBridge do usuário da Amazon.