Übersicht zum Machine Learning - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Übersicht zum Machine Learning

Mit Amazon Redshift können Sie Funktionen für maschinelles Lernen nutzen, um wertvolle Erkenntnisse aus Ihren Daten zu gewinnen. Diese Übersicht über Machine Learning (ML) zeigt Ihnen, wie Sie Ihre Daten für das Training und die Bereitstellung von ML-Modellen untersuchen, visualisieren und vorbereiten können. Die folgenden Abschnitte führen Sie durch den Prozess der Nutzung von Amazon Redshift ML, um das Potenzial Ihrer Daten durch maschinelles Lernen auszuschöpfen.

Mithilfe von Amazon Redshift ML können Sie Machine-Learning-Modelle mithilfe von SQL Anweisungen trainieren und sie in SQL Abfragen zur Vorhersage aufrufen.

Mehr über die Verwendung von Amazon Redshift ML erfahren Sie in folgendem Video.

Informationen zu den Voraussetzungen für die Einrichtung Ihres Redshift-Clusters oder Ihrer Serverless-Arbeitsgruppe, zu den Berechtigungen und zum Besitz für die Verwendung von Amazon Redshift ML finden Sie in den folgenden Abschnitten. In diesen Abschnitten wird auch beschrieben, wie einfache Trainings und Prognosen in Amazon Redshift ML funktionieren.

Wie Machine Learning dabei hilft, ein Problem zu lösen

Machine-Learning-Modelle generieren Prognosen, indem Muster in Ihren Trainingsdaten gefunden und diese Muster dann auf neue Daten angewendet werden. Beim Machine Learning trainieren Sie diese Modelle, indem Muster gelernt werden, die ihre Daten am besten beschreiben. Dann verwenden Sie diese Modelle, um Prognosen (auch als Inferenzen bezeichnet) für neue Daten zu stellen. Machine Learning ist normalerweise ein iterativer Prozess, bei dem Sie die Genauigkeit der Prognosen weiter verbessern können, indem Sie die Parameter ändern und Ihre Trainingsdaten verbessern. Wenn sich Daten ändern, erfolgt ein erneutes Training neuer Modelle mit dem neuen Datensatz.

Um verschiedene Geschäftsziele zu erreichen, gibt es verschiedene grundlegende Machine-Learning-Ansätze.

Supervised Learning in Amazon Redshift ML

Amazon Redshift unterstützt Supervised Learning – den gängigsten Ansatz für fortschrittliche Unternehmensanalysen. Supervised Learning ist der bevorzugte Machine-Learning-Ansatz, wenn Sie einen festgelegten Datensatz haben und verstehen, wie bestimmte Eingabedaten Prognosen zu verschiedenen Geschäftsergebnissen erstellen. Diese Ergebnisse werden manchmal als Labels bezeichnet. Ihr Datensatz ist im Wesentlichen eine Tabelle mit Attributen, die aus Merkmalen (Eingaben) und Zielen (Ausgaben) bestehen. Stellen Sie sich zum Beispiel eine Tabelle vor, die das Alter und die Postleitzahl für vergangene und gegenwärtige Kunden enthält. Nehmen Sie außerdem an, dass es das Feld „aktiv“ gibt, das für gegenwärtige Kunden den Wert „true“ hat und für vergangene Kunden, die ihre Mitgliedschaft ausgesetzt haben, den Wert „false“. Das Ziel des Supervised Machine Learning ist es, Muster im Alter und den Postleitzahlen zu erkennen, die zur Kundenabwanderung führen, die von Kunden mit dem Wert „false“ dargestellt wird. Sie können dieses Modell verwenden, um vorherzusagen, welche Kunden wahrscheinlich abwandern werden, zum Beispiel indem sie ihre Mitgliedschaft aussetzen, und gegebenenfalls Initiativen zur Bindung anzubieten.

Amazon Redshift unterstützt Supervised Learning. Dies umfasst Regression, binäre Klassifizierung und Mehrklassen-Klassifizierung. Regression bezieht sich auf das Problem der Prognose kontinuierlicher Werte, wie zum Beispiel der Gesamtausgaben der Kunden. Binäre Klassifizierung bezieht sich auf das Problem der Prognose eines von zwei Ergebnissen, z. B. die Prognose, ob ein Kunde abwandert oder nicht. Mehrklassen-Klassifizierung bezieht sich auf das Problem der Prognose eines von vielen Ergebnissen, z. B. die Prognose des Artikels, der für einen Kunden interessant sein könnte. Datenanalysten und Datenwissenschaftler können sie verwenden, um Supervised Learning durchzuführen, um Probleme bei Prognosen, der Personalisierung und der Vorhersage der Kundenabwanderung zu lösen. Sie können Supervised Learning auch bei Problemen wie der Prognose, welche Verkäufe abgeschlossen werden, Umsatzprognose, Betrugserkennung und Prognose des Kundenlebenszeitwerts nutzen.

Unsupervised Learning in Amazon Redshift ML

Unsupervised Learning verwendet Machine-Learning-Algorithmen, um nicht gekennzeichnete Trainingsdaten zu analysieren und zu gruppieren. Die Algorithmen erkennen versteckte Muster oder Gruppierungen. Ziel ist es, die zugrunde liegende Struktur oder Verteilung in den Daten zu modellieren, um weitere Informationen über die Daten zu erfahren.

Amazon Redshift unterstützt den K-Means-Clustering-Algorithmus für die Lösung von Unsupervised-Learning-Problemen. Dieser Algorithmus löst Clusterprobleme, bei denen Sie Gruppierungen in den Daten erkennen möchten. Der K-Means-Algorithmus versucht, separate Gruppierungen innerhalb der Daten zu finden. Nicht klassifizierte Daten werden aufgrund ihrer Ähnlichkeiten und Unterschiede gruppiert und partitioniert. Durch die Gruppierung ermittelt der K-Means-Algorithmus iterativ die besten Schwerpunkte und weist jedes Element dem nächstgelegenen Schwerpunkt zu. Mitglieder mit dem gleichen nächstgelegenen Schwerpunkt gehören zur selben Gruppe. Mitglieder einer Gruppe sind anderen Mitgliedern derselben Gruppe so ähnlich wie möglich und unterscheiden sich so stark wie möglich von Mitgliedern anderer Gruppen. Zum Beispiel lassen sich mithilfe des K-Means-Clustering-Algorithmus anhand der Beliebtheit von Konsumgütern Städte klassifizieren, die von einer Pandemie betroffen sind.

Bei Verwendung des K-Means-Algorithmus legen Sie eine Eingabe k fest. Diese gibt die Anzahl der Cluster an, die in den Daten gefunden werden sollen. Dieser Algorithmus gibt einen Satz von k-Schwerpunkten aus. Jeder Datenpunkt gehört zu einem der k-Cluster, der ihm am nächsten liegt. Beschrieben wird jeder Cluster durch seinen Schwerpunkt. Der Schwerpunkt kann als mehrdimensionaler Durchschnitt des Clusters bertrachtet werden. Der K-Means-Algorithmus vergleicht die Entfernungen, um zu sehen, wie sehr sich die Cluster voneinander unterscheiden. Ein größerer Abstand weist allgemein auf einen größeren Unterschied zwischen den Clustern hin.

Die Vorverarbeitung der Daten ist für K-Means wichtig, weil damit die Merkmale des Modells im gleichen Maßstab bleiben und zuverlässige Ergebnisse geliefert werden. Amazon Redshift unterstützt einige K-Means-Präprozessoren für die CREATE MODEL Anweisung, wie StandardScaler, und MinMax. NumericPassthrough Wenn Sie keine Vorverarbeitung für K-Means anwenden möchten, wählen Sie NumericPassthrough explizit als Transformator. Informationen zum Festlegen von K-Means-Parametern finden Sie unter CREATEMODELmit K- MEANS Parametern.

Um zu lernen, wie man unbeaufsichtigtes Training mit K-Means Clustering durchführt, können Sie sich das folgende Video ansehen.

Begriffe und Konzepte von Amazon Redshift ML

Die folgenden Beschreibungen werden verwendet, um einige Konzepte von Amazon Redshift ML zu beschreiben:

  • Maschinelles Lernen in Amazon Redshift trainiert ein Modell mit einem SQL Befehl. Amazon Redshift ML und Amazon SageMaker verwalten alle Datenkonvertierungen, Berechtigungen, die Ressourcennutzung und die Suche nach dem richtigen Modell.

  • Training ist die Phase, in der Amazon Redshift ein Machine-Learning-Modell erstellt, indem eine bestimmte Teilmenge von Daten im Modell ausgeführt wird. Amazon Redshift startet automatisch einen Schulungsjob in Amazon SageMaker und generiert ein Modell.

  • Vorhersage (auch Inferenz genannt) ist die Verwendung des Modells in Amazon Redshift SQL Redshift-Abfragen, um Ergebnisse vorherzusagen. Zur Inferenzzeit verwendet Amazon Redshift eine modellbasierte Prognosefunktion als Teil einer größeren Abfrage, um Prognosen zu erstellen. Die Prognosen werden lokal im Redshift-Cluster berechnet und bieten somit einen hohen Durchsatz, eine niedrige Latenz und keine Zusatzkosten.

  • Mit Bring Your Own Model (BYOM) können Sie ein außerhalb von Amazon Redshift trainiertes Modell SageMaker für datenbankinterne Inferenzen lokal in Amazon Redshift verwenden. Amazon Redshift ML unterstützt die Verwendung BYOM in lokaler Inferenz.

  • Lokale Inferenz wird verwendet, wenn Modelle in Amazon vortrainiert SageMaker, von Amazon SageMaker Neo kompiliert und in Amazon Redshift ML lokalisiert werden. Verwenden Sie den Befehl, um Modelle, die für lokale Inferenzen unterstützt werden, in Amazon Redshift zu importieren. CREATE MODEL Amazon Redshift importiert die vortrainierten SageMaker Modelle, indem es Amazon SageMaker Neo aufruft. Sie kompilieren das Modell dort und importieren das kompilierte Modell in Amazon Redshift. Nutzen Sie lokale Inferenz für höhere Geschwindigkeit und niedrigere Kosten.

  • Remote-Inferenz wird verwendet, wenn Amazon Redshift einen Modellendpunkt aufruft, der in bereitgestellt wurde. SageMaker Remote-Inferenz bietet die Flexibilität, alle Arten von benutzerdefinierten Modellen und Deep-Learning-Modellen aufzurufen, z. B. TensorFlow Modelle, die Sie in Amazon erstellt und bereitgestellt haben. SageMaker

Wichtig sind außerdem:

  • Amazon SageMaker ist ein vollständig verwalteter Service für maschinelles Lernen. Mit Amazon SageMaker können Datenwissenschaftler und Entwickler auf einfache Weise Modelle erstellen, trainieren und direkt in einer produktionsbereiten gehosteten Umgebung bereitstellen. Informationen zu Amazon SageMaker finden Sie unter Was ist Amazon SageMaker im Amazon SageMaker Developer Guide.

  • Amazon SageMaker Autopilot ist ein Funktionsumfang, der auf der Grundlage Ihrer Daten automatisch die besten Modelle für maschinelles Lernen für die Klassifizierung oder Regression trainiert und optimiert. Sie behalten die volle Kontrolle und Transparenz. Amazon SageMaker Autopilot unterstützt Eingabedaten im Tabellenformat. Amazon SageMaker Autopilot bietet automatische Datenbereinigung und Vorverarbeitung, automatische Algorithmusauswahl für lineare Regression, binäre Klassifizierung und Mehrklassenklassifizierung. Es unterstützt auch automatische Hyperparameter-Optimierung (HPO), verteiltes Training, automatische Instance und Clustergrößenauswahl. Informationen zu Amazon SageMaker Autopilot finden Sie unter Automatisieren der Modellentwicklung mit Amazon SageMaker Autopilot im Amazon Developer Guide. SageMaker

  • Amazon Bedrock ist ein vollständig verwalteter Service, der eine Auswahl an leistungsstarken Basismodellen (FMs) von führenden KI-Unternehmen wie AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI und Amazon in einer einzigen Lösung sowie eine breite Palette von Funktionen bietetAPI, die für die Entwicklung generativer KI-Anwendungen erforderlich sind.