Modos de treinamento Suporte a algoritmos

Modos de treinamento e suporte a algoritmos

O piloto automático oferece suporte a diferentes modos de treinamento e algoritmos para resolver problemas de machine learning, gerar relatórios sobre métricas objetivas e de qualidade e usar a validação cruzada automaticamente, quando necessário.

Modos de treinamento

SageMaker O piloto automático pode selecionar automaticamente o método de treinamento com base no tamanho do conjunto de dados, ou você pode selecioná-lo manualmente. As opções são as seguintes:

Ensembling — O piloto automático usa a AutoGluonbiblioteca para treinar vários modelos básicos. Para encontrar a melhor combinação para seu conjunto de dados, o modo ensemble executa 10 ensaios com diferentes configurações de modelo e meta-parâmetros. Em seguida, o Autopilot combina esses modelos usando um método de conjunto de empilhamento para criar um modelo preditivo ideal. Para obter uma lista de algoritmos que o Autopilot suporta no modo de agrupamento para dados tabulares, consulte a seção de suporte a algoritmos a seguir.
Otimização de hiperparâmetros (HPO) — O piloto automático encontra a melhor versão de um modelo ajustando hiperparâmetros usando otimização bayesiana ou otimização multifidelidade enquanto executa trabalhos de treinamento em seu conjunto de dados. HPOO modo seleciona os algoritmos que são mais relevantes para seu conjunto de dados e seleciona a melhor variedade de hiperparâmetros para ajustar seus modelos. Para ajustar seus modelos, o HPO modo executa até 100 ensaios (padrão) para encontrar as configurações ideais de hiperparâmetros dentro da faixa selecionada. Se o tamanho do conjunto de dados for menor que 100 MB, o Autopilot usa a otimização bayesiana. O piloto automático escolhe a otimização de multifidelidade se seu conjunto de dados for maior que 100 MB.

Na otimização de multifidelidade, as métricas são emitidas continuamente dos contêineres de treinamento. Um teste com baixo desempenho em relação a uma métrica objetiva selecionada é interrompido precocemente. Um teste com bom desempenho recebe mais recursos.

Para obter uma lista de algoritmos compatíveis com o Autopilot no HPO modo, consulte a seção de suporte a algoritmos a seguir.
Automático — O piloto automático escolhe automaticamente o modo de agrupamento ou o HPO modo com base no tamanho do seu conjunto de dados. Se seu conjunto de dados for maior que 100 MB, o Autopilot escolhe. HPO Caso contrário, ele escolhe o modo de agrupamento. O piloto automático pode falhar ao ler o tamanho do seu conjunto de dados nos seguintes casos.
- Se você ativar o modo Virtual Private Cloud (VPC), para uma tarefa do AutoML, mas o bucket do S3 contendo o conjunto de dados só permitirá o acesso a partir do. VPC
- A entrada S3 DataType do seu conjunto de dados é uma. ManifestFile
- A entrada S3Uri contém mais de 1000 itens.
Se o Autopilot não conseguir ler o tamanho do conjunto de dados, o padrão é escolher o modo. HPO

nota

Para otimizar o runtime e o desempenho, use o modo de treinamento em conjunto para conjuntos de dados menores que 100 MB.

Suporte a algoritmos

No HPOmodo, o Autopilot oferece suporte aos seguintes tipos de algoritmos de aprendizado de máquina:

Aluno linear – Um algoritmo de aprendizado supervisionado que pode resolver problemas de classificação ou regressão.
XGBoost— Um algoritmo de aprendizado supervisionado que tenta prever com precisão uma variável alvo combinando um conjunto de estimativas de um conjunto de modelos mais simples e mais fracos.
Algoritmo de aprendizado profundo — Um perceptron (MLP) multicamada e uma rede neural artificial de feedback. Esse algoritmo pode lidar com dados que não são linearmente separáveis.

nota

Você não precisa especificar um algoritmo a ser usado em seu problema de machine learning. O piloto automático seleciona automaticamente o algoritmo apropriado para treinar.

No modo de agrupamento, o Autopilot oferece suporte aos seguintes tipos de algoritmos de machine learning:

Light GBM — Uma estrutura otimizada que usa algoritmos baseados em árvore com aumento de gradiente. Esse algoritmo usa árvores que crescem em largura, em vez de profundidade, e é altamente otimizado para velocidade.
CatBoost— Uma estrutura que usa algoritmos baseados em árvore com aumento de gradiente. Otimizado para lidar com variáveis categóricas.
XGBoost— Uma estrutura que usa algoritmos baseados em árvore com aumento de gradiente que cresce em profundidade, em vez de amplitude.
Random Forest – Um algoritmo baseado em árvore que usa várias árvores de decisão em subamostras aleatórias dos dados com substituição. As árvores são divididas em nós ideais em cada nível. As decisões de cada árvore são calculadas em conjunto para evitar ajustes excessivos e melhorar as previsões.
Árvores extras – Um algoritmo baseado em árvore que usa várias árvores de decisão em todo o conjunto de dados. As árvores são divididas aleatoriamente em cada nível. As decisões de cada árvore são calculadas para evitar ajustes excessivos e melhorar as previsões. Árvores extras adicionam um grau de randomização em comparação com o algoritmo de floresta aleatória.
Modelos lineares – Uma estrutura que usa uma equação linear para modelar a relação entre duas variáveis nos dados observados.
Tocha de rede neural – Um modelo de rede neural implementado usando Pytorch.
Rede neural fast.ai – Um modelo de rede neural implementado usando fast.ai.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Formato dos conjuntos de dados e tipos de problemas

Métricas e validação