Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Pour des données tabulaires (c'est-à-dire des données dans lesquelles chaque colonne contient une fonctionnalité avec un type de données spécifique et où chaque ligne contient une observation), Autopilot vous permet de spécifier le type de problème d'apprentissage supervisé disponible pour les modèles candidats de la tâche AutoML, tel que la classification binaire ou la régression, ou de le détecter à votre place en fonction des données que vous fournissez. Le pilote automatique prend également en charge plusieurs formats et types de données.
Jeux de données, types de données et formats Autopilot
Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou Parquet : chaque colonne contient une fonctionnalité avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.
-
CSV (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
-
Parquet est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.
Les types de données acceptés pour les colonnes incluent les types numériques, catégoriels et textuels, ainsi que les séries temporelles constituées de chaînes de nombres séparés par des virgules. Si Autopilot détecte qu'il traite des séquences de séries temporelles, il les traite par le biais de transformateurs de fonctionnalités spécialisés fournis par la bibliothèque tsfresh
Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs Pour plus d'informations sur les limites des ressources par défaut des jeux de données en entrée et sur la manière de les augmenter, consultez Quotas Autopilot.
Types de problèmes Autopilot
Pour les données tabulaires, vous spécifiez également le type de problèmes d'apprentissage supervisé disponible pour les modèles candidats comme suit :
Régression
La régression estime les valeurs d'une variable cible dépendante en fonction d'une ou de plusieurs autres variables ou attributs en corrélation avec elle. Exemple : la prédiction des prix des maisons à l'aide de caractéristiques telles que le nombre de salles de bains et de chambres à coucher, la superficie de la maison et du jardin. L'analyse de régression peut créer un modèle qui prend en entrée une ou plusieurs de ces fonctions et prédit le prix d'une maison.
Classification binaire
La classification binaire est un type d'apprentissage supervisé qui assigne une personne à l'une des deux classes prédéfinies et mutuellement exclusives en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple de classification binaire : diagnostic de maladie basé sur les résultats des tests de diagnostic.
Classification multiclasse
La classification multiclasse est un type d'apprentissage supervisé qui assigne une personne à une classe parmi plusieurs classes prédéfinies en fonction d'attributs. Elle est supervisée parce que les modèles sont entraînés à l'aide d'exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple : la prédiction de la rubrique la plus pertinente pour un document texte. Un document peut être classé comme portant sur la religion, la stratégie ou les finances, ou sur une classe parmi plusieurs classes de sujets prédéfinis.