Algorithme d'analyse en composantes principales (PCA) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Algorithme d'analyse en composantes principales (PCA)

PCAest un algorithme d'apprentissage automatique non supervisé qui tente de réduire la dimensionnalité (nombre de caractéristiques) d'un ensemble de données tout en conservant le plus d'informations possible. Cette action s'effectue en recherchant un nouvel ensemble de variables appelées composantes, qui constituent les composés des caractéristiques originales décorrélées les unes les autres. Les composants sont également contraints de telle sorte que le premier composant représente la plus grande variabilité possible dans les données, le deuxième composant la deuxième variabilité la plus importante, et ainsi de suite.

Sur Amazon SageMaker, PCA fonctionne selon deux modes, selon le scénario :

  • regular : pour les ensembles de données avec données fragmentées et un nombre modéré d'observations et de caractéristiques.

  • randomized : pour les ensembles de données avec un grand nombre d'observations et de caractéristiques. Ce mode utilise un algorithme d'approximation.

PCAutilise des données tabulaires.

Les lignes correspondent aux observations que vous voulez intégrer dans un espace dimensionnel inférieur. Les colonnes correspondent aux fonctions pour lesquelles vous souhaitez rechercher une approximation réduite. L'algorithme calcule la matrice de covariance (ou une approximation correspondante de façon distribuée), puis effectue la décomposition des valeurs singulières sur ce résumé pour générer les principaux composants.

Interface d'entrée/sortie pour l'algorithme PCA

Pour l'entraînement, PCA attend les données fournies dans le canal ferroviaire et prend éventuellement en charge un ensemble de données transmis au jeu de données de test, qui est noté par l'algorithme final. Les deux formats de fichier recordIO-wrapped-protobuf et CSV sont pris en charge pour l'entraînement. Vous pouvez utiliser le mode File (Fichier) ou le mode Pipe (Tube) pour entraîner les modèles sur les données obéissant au format recordIO-wrapped-protobuf ou au format CSV.

Pour l'inférence, PCA les supports text/csvapplication/json, et. application/x-recordio-protobuf Les résultats sont retournés dans le format application/json ou application/x-recordio-protobuf avec un vecteur de « projections ».

Pour plus d'informations sur les formats de fichier en entrée et en sortie, consultez PCAFormats de réponse pour l'inférence, ainsi que la rubrique Exemples de blocs-notes PCA.

EC2Recommandation d'instance pour l'PCAalgorithme

PCAsupports CPU et GPU instances de formation et d'inférence. Le type d'instance le plus important dépend fortement des spécificités des données d'entrée. Par exempleGPU, PCA prend en charge les protocoles P2, P3, G4dn et G5.

Exemples de blocs-notes PCA

Pour un exemple de bloc-notes expliquant comment utiliser l'algorithme d'analyse en composantes SageMaker principales pour analyser les images de chiffres manuscrits compris entre zéro et neuf dans le MNIST jeu de données, voir An Introduction to PCA with MNIST. Pour savoir comment créer et accéder à des instances de bloc-notes Jupyter dans lesquelles vous pouvez exécuter l'exemple SageMaker, consultez. Instances Amazon SageMaker Notebook Une fois que vous avez créé une instance de bloc-notes et que vous l'avez ouverte, sélectionnez l'onglet SageMaker Exemples pour afficher la liste de tous les SageMaker exemples. La rubrique consacrée à la modélisation d'exemples de blocs-notes à l'aide NTM des algorithmes se trouve dans la section Introduction aux algorithmes d'Amazon. Pour ouvrir un bloc-notes, cliquez sur son onglet Use (Utiliser) et sélectionnez Create copy (Créer une copie).