Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Übersicht zum Machine Learning
Mit Amazon Redshift können Sie Funktionen für maschinelles Lernen nutzen, um wertvolle Erkenntnisse aus Ihren Daten zu gewinnen. Diese Übersicht über Machine Learning (ML) zeigt Ihnen, wie Sie Ihre Daten für das Training und die Bereitstellung von ML-Modellen untersuchen, visualisieren und vorbereiten können. Die folgenden Abschnitte führen Sie durch den Prozess der Nutzung von Amazon Redshift ML, um das Potenzial Ihrer Daten durch maschinelles Lernen auszuschöpfen.
Mithilfe von Amazon Redshift ML können Sie Machine-Learning-Modelle mithilfe von SQL-Anweisungen trainieren und sie in SQL-Abfragen für Prognosen aufrufen.
Mehr über die Verwendung von Amazon Redshift ML erfahren Sie in folgendem Video.
Informationen zu den Voraussetzungen für die Einrichtung Ihres Redshift-Clusters oder Ihrer Serverless-Arbeitsgruppe, zu den Berechtigungen und zum Besitz für die Verwendung von Amazon Redshift ML finden Sie in den folgenden Abschnitten. In diesen Abschnitten wird auch beschrieben, wie einfache Trainings und Prognosen in Amazon Redshift ML funktionieren.
Wie Machine Learning dabei hilft, ein Problem zu lösen
Machine-Learning-Modelle generieren Prognosen, indem Muster in Ihren Trainingsdaten gefunden und diese Muster dann auf neue Daten angewendet werden. Beim Machine Learning trainieren Sie diese Modelle, indem Muster gelernt werden, die ihre Daten am besten beschreiben. Dann verwenden Sie diese Modelle, um Prognosen (auch als Inferenzen bezeichnet) für neue Daten zu stellen. Machine Learning ist normalerweise ein iterativer Prozess, bei dem Sie die Genauigkeit der Prognosen weiter verbessern können, indem Sie die Parameter ändern und Ihre Trainingsdaten verbessern. Wenn sich Daten ändern, erfolgt ein erneutes Training neuer Modelle mit dem neuen Datensatz.
Um verschiedene Geschäftsziele zu erreichen, gibt es verschiedene grundlegende Machine-Learning-Ansätze.
Supervised Learning in Amazon Redshift ML
Amazon Redshift unterstützt Supervised Learning – den gängigsten Ansatz für fortschrittliche Unternehmensanalysen. Supervised Learning ist der bevorzugte Machine-Learning-Ansatz, wenn Sie einen festgelegten Datensatz haben und verstehen, wie bestimmte Eingabedaten Prognosen zu verschiedenen Geschäftsergebnissen erstellen. Diese Ergebnisse werden manchmal als Labels bezeichnet. Ihr Datensatz ist im Wesentlichen eine Tabelle mit Attributen, die aus Merkmalen (Eingaben) und Zielen (Ausgaben) bestehen. Stellen Sie sich zum Beispiel eine Tabelle vor, die das Alter und die Postleitzahl für vergangene und gegenwärtige Kunden enthält. Nehmen Sie außerdem an, dass es das Feld „aktiv“ gibt, das für gegenwärtige Kunden den Wert „true“ hat und für vergangene Kunden, die ihre Mitgliedschaft ausgesetzt haben, den Wert „false“. Das Ziel des Supervised Machine Learning ist es, Muster im Alter und den Postleitzahlen zu erkennen, die zur Kundenabwanderung führen, die von Kunden mit dem Wert „false“ dargestellt wird. Sie können dieses Modell verwenden, um vorherzusagen, welche Kunden wahrscheinlich abwandern werden, zum Beispiel indem sie ihre Mitgliedschaft aussetzen, und gegebenenfalls Initiativen zur Bindung anzubieten.
Amazon Redshift unterstützt Supervised Learning. Dies umfasst Regression, binäre Klassifizierung und Mehrklassen-Klassifizierung. Regression bezieht sich auf das Problem der Prognose kontinuierlicher Werte, wie zum Beispiel der Gesamtausgaben der Kunden. Binäre Klassifizierung bezieht sich auf das Problem der Prognose eines von zwei Ergebnissen, z. B. die Prognose, ob ein Kunde abwandert oder nicht. Mehrklassen-Klassifizierung bezieht sich auf das Problem der Prognose eines von vielen Ergebnissen, z. B. die Prognose des Artikels, der für einen Kunden interessant sein könnte. Datenanalysten und Datenwissenschaftler können sie verwenden, um Supervised Learning durchzuführen, um Probleme bei Prognosen, der Personalisierung und der Vorhersage der Kundenabwanderung zu lösen. Sie können Supervised Learning auch bei Problemen wie der Prognose, welche Verkäufe abgeschlossen werden, Umsatzprognose, Betrugserkennung und Prognose des Kundenlebenszeitwerts nutzen.
Unsupervised Learning in Amazon Redshift ML
Unsupervised Learning verwendet Machine-Learning-Algorithmen, um nicht gekennzeichnete Trainingsdaten zu analysieren und zu gruppieren. Die Algorithmen erkennen versteckte Muster oder Gruppierungen. Ziel ist es, die zugrunde liegende Struktur oder Verteilung in den Daten zu modellieren, um weitere Informationen über die Daten zu erfahren.
Amazon Redshift unterstützt den K-Means-Clustering-Algorithmus für die Lösung von Unsupervised-Learning-Problemen. Dieser Algorithmus löst Clusterprobleme, bei denen Sie Gruppierungen in den Daten erkennen möchten. Der K-Means-Algorithmus versucht, separate Gruppierungen innerhalb der Daten zu finden. Nicht klassifizierte Daten werden aufgrund ihrer Ähnlichkeiten und Unterschiede gruppiert und partitioniert. Durch die Gruppierung ermittelt der K-Means-Algorithmus iterativ die besten Schwerpunkte und weist jedes Element dem nächstgelegenen Schwerpunkt zu. Mitglieder mit dem gleichen nächstgelegenen Schwerpunkt gehören zur selben Gruppe. Mitglieder einer Gruppe sind anderen Mitgliedern derselben Gruppe so ähnlich wie möglich und unterscheiden sich so stark wie möglich von Mitgliedern anderer Gruppen. Zum Beispiel lassen sich mithilfe des K-Means-Clustering-Algorithmus anhand der Beliebtheit von Konsumgütern Städte klassifizieren, die von einer Pandemie betroffen sind.
Bei Verwendung des K-Means-Algorithmus legen Sie eine Eingabe k
fest. Diese gibt die Anzahl der Cluster an, die in den Daten gefunden werden sollen. Dieser Algorithmus gibt einen Satz von k-Schwerpunkten aus. Jeder Datenpunkt gehört zu einem der k-Cluster, der ihm am nächsten liegt. Beschrieben wird jeder Cluster durch seinen Schwerpunkt. Der Schwerpunkt kann als mehrdimensionaler Durchschnitt des Clusters bertrachtet werden. Der K-Means-Algorithmus vergleicht die Entfernungen, um zu sehen, wie sehr sich die Cluster voneinander unterscheiden. Ein größerer Abstand weist allgemein auf einen größeren Unterschied zwischen den Clustern hin.
Die Vorverarbeitung der Daten ist für K-Means wichtig, weil damit die Merkmale des Modells im gleichen Maßstab bleiben und zuverlässige Ergebnisse geliefert werden. Amazon Redshift unterstützt einige K-Means-Präprozessoren für die CREATE MODEL-Anweisung, wie StandardScaler, und MinMax. NumericPassthrough Wenn Sie keine Vorverarbeitung für K-Means anwenden möchten, wählen Sie NumericPassthrough explizit als Transformer. Informationen zum Festlegen von K-Means-Parametern finden Sie unter CREATE MODEL mit K-MEANS – Parameter.
Um zu lernen, wie man unbeaufsichtigtes Training mit K-Means Clustering durchführt, können Sie sich das folgende Video ansehen.
Begriffe und Konzepte von Amazon Redshift ML
Die folgenden Beschreibungen werden verwendet, um einige Konzepte von Amazon Redshift ML zu beschreiben:
-
Machine Learning in Amazon Redshift trainiert ein Modell mit einem SQL-Befehl. Amazon Redshift ML und Amazon SageMaker AI verwalten alle Datenkonvertierungen, Berechtigungen, die Ressourcennutzung und die Suche nach dem richtigen Modell.
-
Training ist die Phase, in der Amazon Redshift ein Machine-Learning-Modell erstellt, indem eine bestimmte Teilmenge von Daten im Modell ausgeführt wird. Amazon Redshift startet automatisch einen Schulungsjob in Amazon SageMaker AI und generiert ein Modell.
-
Prognose (auch Inferenz genannt) ist die Verwendung des Modells in Amazon-Redshift-SQL-Abfragen, um Ergebnisse vorherzusagen. Zur Inferenzzeit verwendet Amazon Redshift eine modellbasierte Prognosefunktion als Teil einer größeren Abfrage, um Prognosen zu erstellen. Die Prognosen werden lokal im Redshift-Cluster berechnet und bieten somit einen hohen Durchsatz, eine niedrige Latenz und keine Zusatzkosten.
-
Mit Bring Your Own Model (BYOM) können Sie ein außerhalb von Amazon Redshift mit Amazon SageMaker AI trainiertes Modell für datenbankinterne Inferenzen lokal in Amazon Redshift verwenden. Amazon Redshift ML unterstützt die Verwendung von BYOM in der lokalen Inferenz.
-
Lokale Inferenz wird verwendet, wenn Modelle in Amazon SageMaker AI vortrainiert, von Amazon SageMaker AI Neo kompiliert und in Amazon Redshift ML lokalisiert werden. Um Modelle zu importieren, die für lokale Inferenz in Amazon Redshift unterstützt werden, verwenden Sie den Befehl CREATE MODEL. Amazon Redshift importiert die vortrainierten SageMaker KI-Modelle, indem es Amazon SageMaker AI Neo aufruft. Sie kompilieren das Modell dort und importieren das kompilierte Modell in Amazon Redshift. Nutzen Sie lokale Inferenz für höhere Geschwindigkeit und niedrigere Kosten.
-
Ferninferenz wird verwendet, wenn Amazon Redshift einen in KI bereitgestellten Modellendpunkt aufruft. SageMaker Remote-Inferenz bietet die Flexibilität, alle Arten von benutzerdefinierten Modellen und Deep-Learning-Modellen aufzurufen, z. B. TensorFlow Modelle, die Sie in Amazon SageMaker AI erstellt und bereitgestellt haben.
Wichtig sind außerdem:
-
Amazon SageMaker AI ist ein vollständig verwalteter Service für maschinelles Lernen. Mit Amazon SageMaker AI können Datenwissenschaftler und Entwickler auf einfache Weise Modelle erstellen, trainieren und direkt in einer produktionsbereiten gehosteten Umgebung bereitstellen. Informationen zu Amazon SageMaker AI finden Sie unter Was ist Amazon SageMaker AI im Amazon SageMaker AI Developer Guide.
-
Amazon SageMaker AI Autopilot ist ein Funktionsumfang, der auf der Grundlage Ihrer Daten automatisch die besten Modelle für maschinelles Lernen für die Klassifizierung oder Regression trainiert und optimiert. Sie behalten die volle Kontrolle und Transparenz. Amazon SageMaker AI Autopilot unterstützt Eingabedaten im Tabellenformat. Amazon SageMaker AI Autopilot bietet automatische Datenbereinigung und Vorverarbeitung, automatische Algorithmusauswahl für lineare Regression, binäre Klassifizierung und Mehrklassenklassifizierung. Es unterstützt auch die automatische Hyperparameteroptimierung (HPO), verteiltes Training, automatische Instances und Clustergrößenauswahl. Informationen zu Amazon SageMaker AI Autopilot finden Sie unter Automatisieren der Modellentwicklung mit Amazon SageMaker AI Autopilot im Amazon SageMaker AI Developer Guide.
-
Amazon Bedrock ist ein vollständig verwalteter Service, der über eine einzige API eine Auswahl an leistungsstarken Basismodellen (FMs) von führenden KI-Unternehmen wie AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI und Amazon sowie eine breite Palette von Funktionen bietet, die für die Entwicklung generativer KI-Anwendungen erforderlich sind.