Algorithmus für die Hauptkomponentenanalyse (PCA) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Algorithmus für die Hauptkomponentenanalyse (PCA)

PCAist ein Algorithmus für unbeaufsichtigtes maschinelles Lernen, der versucht, die Dimensionalität (Anzahl der Merkmale) innerhalb eines Datensatzes zu reduzieren und gleichzeitig so viele Informationen wie möglich beizubehalten. Dies geschieht, indem eine neue Menge an Merkmalen, sogenannte Komponenten, ermittelt wird, die Composites der ursprünglichen, nicht miteinander korrelierten Merkmale sind. Sie sind ebenfalls eingeschränkt, sodass die erste Komponente die größtmögliche Variabilität der Daten umfasst, die zweite Komponente die zweitgrößte Variabilität und so weiter.

PCAArbeitet in Amazon SageMaker je nach Szenario in zwei Modi:

  • regular: bei Datensätzen mit geringer Datendichte und einer geringen Anzahl an Beobachtungen und Merkmalen.

  • randomized: bei Datensätzen mit einer großen Anzahl an Beobachtungen und Merkmalen. Dieser Modus verwendet einen Approximationsalgorithmus.

PCAverwendet tabellarische Daten.

Die Zeilen enthalten die Beobachtungen, die in einen Raum mit geringerer Dimensionalität eingebettet werden sollen. Die Spalte enthält die Merkmale, für die Sie eine reduzierte Approximation suchen. Der Algorithmus berechnet die Kovarianzmatrix (oder eine Approximation davon in verteilter Form) und wendet dann eine Singulärwertzerlegung auf diese Zusammenfassung an, um die Hauptkomponenten zu ermitteln.

Eingabe-/Ausgabeschnittstelle für den Algorithmus PCA

PCAErwartet für das Training Daten, die im Zugkanal bereitgestellt werden, und unterstützt optional einen Datensatz, der an den Testdatensatz übergeben wird, der vom endgültigen Algorithmus bewertet wird. Die Formate recordIO-wrapped-protobuf und CSV werden beide für das Training unterstützt. Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als recordIO-wrapped-protobuf oder CSV formatiert sind, zu trainieren.

Als Inferenz PCA unterstützt text/csvapplication/json, undapplication/x-recordio-protobuf. Ergebnisse werden entweder im Format application/json oder application/x-recordio-protobuf mit dem Vektor "Projektionen" zurückgegeben.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter PCAAntwortformate für Inferenz und unter PCA-Beispiel-Notebooks.

EC2Instanzempfehlung für den Algorithmus PCA

PCAStützen CPU und GPU Instanzen für Training und Inferenz. Welcher Instance-Typ am leistungsstärksten ist, hängt hauptsächlich von den Besonderheiten der Eingabedaten ab. PCAUnterstützt GPU beispielsweise P2, P3, G4dn und G5.

PCA-Beispiel-Notebooks

Ein Beispielnotizbuch, das zeigt, wie der Algorithmus SageMaker Principal Component Analysis verwendet wird, um die Bilder handgeschriebener Ziffern von Null bis Neun im MNIST Datensatz zu analysieren, finden Sie unter Eine Einführung in with. PCA MNIST Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instanzen, in denen Sie das Beispiel ausführen können, finden Sie unter. SageMaker Amazon SageMaker Notebook-Instances Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker Beispiele, um eine Liste aller Beispiele anzuzeigen. SageMaker Das Thema Beispiel-Notebooks zur Modellierung mithilfe der NTM Algorithmen finden Sie im Abschnitt Einführung in Amazon-Algorithmen. Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte Use (Verwenden) und wählen Sie Create copy (Kopie erstellen) aus.