AutoGluon-Hyperparamètres tabulaires - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AutoGluon-Hyperparamètres tabulaires

Le tableau suivant contient le sous-ensemble d'hyperparamètres requis ou les plus couramment utilisés pour l'algorithme Amazon SageMaker AutoGluon -Tabular. Les utilisateurs définissent ces paramètres pour faciliter l'estimation des paramètres du modèle à partir des données. L'algorithme SageMaker AutoGluon -Tabular est une implémentation du package open source AutoGluon -Tabular.

Note

Les hyperparamètres par défaut sont basés sur des exemples de jeux de données dans le AutoGluon-Exemples de carnets de notes tabulaires.

Par défaut, l'algorithme SageMaker AutoGluon -Tabular choisit automatiquement une métrique d'évaluation en fonction du type de problème de classification. L'algorithme détecte le type de problème de classification en fonction du nombre d'étiquettes contenues dans vos données. Pour les problèmes de régression, la métrique d'évaluation correspond à la racine carrée de l'erreur quadratique moyenne. Pour les problèmes de classification binaire, la métrique d'évaluation est l'aire située sous la courbe caractéristique de fonctionnement du récepteur (AUC). Pour les problèmes de classification multi-classes, la métrique d'évaluation est la précision. Vous pouvez utiliser l'hyperparamètre eval_metric pour modifier la métrique d'évaluation par défaut. Reportez-vous au tableau suivant pour plus d'informations sur les hyperparamètres AutoGluon -Tabular, notamment les descriptions, les valeurs valides et les valeurs par défaut.

Nom du paramètre Description
eval_metric

Métrique d'évaluation des données de validation. Si eval_metric est défini sur la valeur "auto" par défaut, l'algorithme choisit automatiquement une métrique d'évaluation en fonction du type de problème de classification :

  • "root_mean_squared_error" pour une régression

  • "roc_auc" pour une classification binaire

  • "accuracy" pour une classification multiclasse

Valeurs valides : chaîne, reportez-vous à la AutoGluon documentation pour les valeurs valides.

Valeur par défaut : "auto".

presets

Liste des configurations prédéfinies des divers arguments dans fit().

  • "best_quality" : précision prédictive élevée, durées d'inférence plus longues et utilisation accrue du disque

  • "high_quality" : précision prédictive élevée et inférence rapide

  • "good_quality" : bonne précision prédictive et inférence très rapide

  • "medium_quality" : précision prédictive moyenne, durées d'inférence et d'entraînement très courtes

  • "optimize_for_deployment" : suppression des modèles inutilisés et suppression des artefacts d'entraînement

  • "interpretable" : convient uniquement aux modèles interprétables basés sur des règles du package imodels

Pour plus de détails, consultez la section AutoGluon Prédicteurs.

Valeurs valides : chaîne, l'une des valeurs suivantes : ("best_quality", "high_quality", good_quality", "medium_quality", "optimize_for_deployment", or "interpretable").

Valeur par défaut : "medium_quality".

auto_stack

AutoGluon Faut-il utiliser automatiquement l'ensachage et l'assemblage de piles multicouches pour améliorer la précision prédictive. Définissez auto_stack sur "True" si vous voulez tolérer des temps d'entraînement plus longs afin de maximiser la précision prédictive. Cela définit automatiquement les arguments num_bag_folds et num_stack_levels en fonction des propriétés du jeu de données.

Valeurs valides : chaîne, "True" ou "False".

Valeur par défaut : "False".

num_bag_folds

Nombre de plis utilisés pour le bagging des modèles. Quand num_bag_folds est égal à k, la durée d'entraînement est grossièrement augmentée d'un facteur de k. Définissez num_bag_folds sur 0 pour désactiver le bagging. Il est désactivé par défaut, mais nous vous recommandons d'utiliser des valeurs comprises entre 5 et 10 pour optimiser la performance prédictive. L'augmentation de num_bag_folds donne lieu à des modèles présentant un biais plus faible, mais qui sont plus susceptibles d'être surajustés. La valeur 1 est non valide pour ce paramètre et lève une erreur ValueError. Les valeurs supérieures à 10 peuvent produire des rendements dégressifs et peuvent même nuire aux résultats globaux en raison d'un surajustement. Pour améliorer davantage les prévisions, évitez d'augmenter num_bag_folds et augmentez plutôt num_bag_sets.

Valeurs valides : chaîne, tout entier compris entre "0" et "10", limites incluses.

Valeur par défaut : "0".

num_bag_sets

Nombre de répétitions du bagging kfold à effectuer (les valeurs doivent être supérieures ou égales à 1). Le nombre total de modèles entraînés pendant le bagging est égal à num_bag_folds * num_bag_sets. La valeur par défaut de ce paramètre est 1 si time_limit n'est pas spécifié. Ce paramètre est désactivé si num_bag_folds n'est pas spécifié. Les valeurs supérieures à 1 entraînent des performances prédictives supérieures, en particulier pour de petits problèmes et quand l'empilage est activé.

Valeurs valides : entier, plage : [1, 20].

Valeur par défaut : 1.

num_stack_levels

Nombre de niveaux d'empilage à utiliser dans un regroupement en pile. Augmente grossièrement la durée d'entraînement du modèle par un facteur de num_stack_levels + 1. Définissez ce paramètre sur 0 pour désactiver le regroupement en pile. Ce paramètre est désactivé par défaut, mais nous vous recommandons d'utiliser des valeurs comprises entre 1 et 3 pour optimiser la performance prédictive. Pour éviter un surajustement et une erreur ValueError, num_bag_folds doit avoir une valeur supérieure ou égale à 2.

Valeurs valides : valeur à virgule flottante, plage : [0, 3].

Valeur par défaut : 0.

refit_full

Indique s'il faut réentraîner ou non tous les modèles sur toutes les données (entraînement et validation) après la procédure d'entraînement normale. Pour plus de détails, consultez la section AutoGluon Prédicteurs.

Valeurs valides : chaîne, "True" ou "False".

Valeur par défaut : "False".

set_best_to_refit_full

Indique s'il faut modifier ou non le modèle par défaut utilisé par le prédicteur pour la prédiction. Si set_best_to_refit_full a la valeur "True", le modèle par défaut devient le modèle qui a affiché le score de validation le plus élevé à la suite du réajustement (activé par refit_full). Valable uniquement si refit_full est défini.

Valeurs valides : chaîne, "True" ou "False".

Valeur par défaut : "False".

save_space

Indique s'il faut ou non réduire la mémoire et la taille du disque du prédicteur en supprimant les fichiers de modèle auxiliaires qui ne sont pas nécessaires à la prédiction avec les nouvelles données. Cela n'a aucun impact sur la précision de l'inférence. Nous vous recommandons de définir save_space sur "True" si le seul objectif est d'utiliser le modèle entraîné à des fins de prédiction. Certaines fonctionnalités avancées peuvent ne plus être disponibles si save_space est défini sur "True". Pour plus de détails, consultez la documentation sur predictor.save_space().

Valeurs valides : chaîne, "True" ou "False".

Valeur par défaut : "False".

verbosity

Verbosité des messages d'impression. Les niveaux de verbosity vont de 0 à 4, avec des niveaux supérieurs correspondant à des instructions d'impression plus détaillées. Un paramètre verbosity égal à 0 supprime les avertissements.

Valeurs valides : entier, l'une des valeurs suivantes : (0, 1, 2, 3 ou 4).

Valeur par défaut : 2.