Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren auch keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unter Was ist Amazon Machine Learning.
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erforderliche Parameter für den Assistenten Datenquelle erstellen
Damit Amazon ML eine Verbindung zu Ihrer Amazon Redshift Redshift-Datenbank herstellen und Daten in Ihrem Namen lesen kann, müssen Sie Folgendes angeben:
-
Das Amazon Redshift
ClusterIdentifier
-
Der Name der Amazon Redshift Redshift-Datenbank
-
Die Anmeldedaten der Amazon Redshift Redshift-Datenbank (Benutzername und Passwort)
-
Die Amazon ML Amazon Redshift AWS Identity and Access Management (IAM) -Rolle
-
Die Amazon Redshift SQL-Abfrage
-
(Optional) Der Speicherort des Amazon ML-Schemas
-
Der Amazon S3 S3-Staging-Speicherort (wo Amazon ML die Daten ablegt, bevor es die Datenquelle erstellt)
Darüber hinaus müssen Sie sicherstellen, dass die IAM-Benutzer oder -Rollen, die Amazon Redshift Redshift-Datenquellen erstellen (sei es über die Konsole oder mithilfe der CreateDatasourceFromRedshift
Aktion), über die entsprechende Berechtigung verfügen. iam:PassRole
- Amazon Redshift
ClusterIdentifier
-
Verwenden Sie diesen Parameter, bei dem Groß- und Kleinschreibung beachtet wird, damit Amazon ML Ihren Cluster finden und eine Verbindung zu ihm herstellen kann. Sie können die Cluster-ID (den Namen) von der Amazon Redshift Redshift-Konsole abrufen. Weitere Informationen zu Clustern finden Sie unter Amazon Redshift Clusters.
- Name der Amazon Redshift Redshift-Datenbank
-
Verwenden Sie diesen Parameter, um Amazon ML mitzuteilen, welche Datenbank im Amazon Redshift Redshift-Cluster die Daten enthält, die Sie als Datenquelle verwenden möchten.
- Anmeldeinformationen für die Amazon Redshift Redshift-Datenbank
-
Verwenden Sie diese Parameter, um den Benutzernamen und das Passwort des Amazon Redshift Redshift-Datenbankbenutzers anzugeben, in dessen Kontext die Sicherheitsabfrage ausgeführt wird.
Anmerkung
Amazon ML benötigt einen Amazon Redshift Redshift-Benutzernamen und ein Passwort, um eine Verbindung zu Ihrer Amazon Redshift Redshift-Datenbank herzustellen. Nach dem Entladen der Daten auf Amazon S3 verwendet Amazon ML Ihr Passwort nie wieder und speichert es auch nicht.
- Amazon ML — Amazon Redshift Redshift-Rolle
-
Verwenden Sie diesen Parameter, um den Namen der IAM-Rolle anzugeben, die Amazon ML verwenden soll, um die Sicherheitsgruppen für den Amazon Redshift Redshift-Cluster und die Bucket-Richtlinie für den Amazon S3 S3-Staging-Speicherort zu konfigurieren.
Wenn Sie keine IAM-Rolle haben, die auf Amazon Redshift zugreifen kann, kann Amazon ML eine Rolle für Sie erstellen. Wenn Amazon ML eine Rolle erstellt, erstellt es eine vom Kunden verwaltete Richtlinie und fügt sie einer IAM-Rolle hinzu. Die von Amazon ML erstellte Richtlinie gewährt Amazon ML die Erlaubnis, nur auf den von Ihnen angegebenen Cluster zuzugreifen.
Wenn Sie bereits über eine IAM-Rolle für den Zugriff auf Amazon Redshift verfügen, können Sie den ARN der Rolle eingeben oder die Rolle aus der Drop-down-Liste auswählen. IAM-Rollen mit Amazon Redshift Redshift-Zugriff sind oben in der Drop-down-Liste aufgeführt.
Die IAM-Rolle muss den folgenden Inhalt haben:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
123456789012
" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012
:datasource/*" } } }] }Weitere Informationen zu vom Kunden verwalteten Richtlinien finden Sie unter Vom Kunden verwaltete Richtlinien im IAM-Benutzerhandbuch.
- Amazon Redshift SQL-Abfrage
-
Verwenden Sie diesen Parameter, um die SQL SELECT-Abfrage anzugeben, die Amazon ML in Ihrer Amazon Redshift Redshift-Datenbank ausführt, um Ihre Daten auszuwählen. Amazon ML verwendet die Amazon Redshift UNLOAD-Aktion, um die Ergebnisse Ihrer Abfrage sicher an einen Amazon S3 S3-Speicherort zu kopieren.
Anmerkung
Amazon ML funktioniert am besten, wenn die Eingabedatensätze in zufälliger Reihenfolge (gemischt) sind. Sie können die Ergebnisse Ihrer Amazon Redshift SQL-Abfrage ganz einfach mischen, indem Sie die Amazon Redshift random () -Funktion verwenden. Beispiel: Angenommen, dies ist die ursprüngliche Abfrage:
"SELECT col1, col2, … FROM training_table"
Sie können durch Aktualisierung der Abfrage zufällig mischen:
"SELECT col1, col2, … FROM training_table ORDER BY random()"
- Schemaspeicherort (Optional)
-
Verwenden Sie diesen Parameter, um den Amazon S3 S3-Pfad zu Ihrem Schema für die Amazon Redshift Redshift-Daten anzugeben, die Amazon ML exportiert.
Wenn Sie kein Schema für Ihre Datenquelle angeben, erstellt die Amazon ML-Konsole automatisch ein Amazon ML-Schema, das auf dem Datenschema der Amazon Redshift SQL-Abfrage basiert. Amazon ML-Schemas haben weniger Datentypen als Amazon Redshift Redshift-Schemas, es handelt sich also nicht um eine Konvertierung. one-to-one Die Amazon ML-Konsole konvertiert Amazon Redshift Redshift-Datentypen mithilfe des folgenden Konvertierungsschemas in Amazon ML-Datentypen.
Amazon Redshift-Datentypen Amazon Redshift Redshift-Aliase Amazon ML-Datentyp SMALLINT INT2 NUMERIC INTEGER GANZZAHL, INT4 NUMERIC BIGINT INT8 NUMERIC DECIMAL NUMERIC NUMERIC REAL FLOAT4 NUMERIC DOUBLE PRECISION FLOAT8, SCHWEBEN NUMERIC BOOLEAN BOOL BINARY CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT DATUM TEXT TIMESTAMP (ZEITSTEMPEL) TIMESTAMP WITHOUT TIME ZONE TEXT Um in Amazon
Binary
ML-Datentypen konvertiert zu werden, müssen die Werte der Amazon Redshift Booleans in Ihren Daten Amazon ML-Binärwerte unterstützen. Wenn Ihr boolescher Datentyp Werte enthält, die nicht unterstützt werden, konvertiert Amazon ML diese in den spezifischsten Datentyp, den es gibt. Wenn ein Amazon Redshift Boolean beispielsweise die Werte0
, und2
hat1
, konvertiert Amazon ML den Booleschen Wert in einen Datentyp.Numeric
Weitere Informationen zu unterstützten binären Werten finden Sie unter Verwenden des Felds AttributeType .Wenn Amazon ML einen Datentyp nicht ermitteln kann, wird standardmäßig der Datentyp verwendet.
Text
Nachdem Amazon ML das Schema konvertiert hat, können Sie die zugewiesenen Amazon ML-Datentypen im Assistenten „Datenquelle erstellen“ überprüfen und korrigieren und das Schema überarbeiten, bevor Amazon ML die Datenquelle erstellt.
- Amazon S3 S3-Staging-Standort
-
Verwenden Sie diesen Parameter, um den Namen des Amazon S3 S3-Staging-Speicherorts anzugeben, an dem Amazon ML die Ergebnisse der Amazon Redshift SQL-Abfrage speichert. Nach der Erstellung der Datenquelle verwendet Amazon ML die Daten im Staging-Speicherort, anstatt zu Amazon Redshift zurückzukehren.
Anmerkung
Da Amazon ML die durch die Amazon ML-Amazon-Redshift-Rolle definierte IAM-Rolle annimmt, verfügt Amazon ML über Berechtigungen für den Zugriff auf alle Objekte im angegebenen Amazon S3 S3-Staging-Speicherort. Aus diesem Grund empfehlen wir, nur Dateien, die keine vertraulichen Informationen enthalten, im Amazon S3 S3-Staging-Speicherort zu speichern. Wenn es sich bei Ihrem Root-Bucket beispielsweise um einen Speicherort handelt
s3://mybucket/
, empfehlen wir Ihnen, einen Speicherort zu erstellen, in dem nur die Dateien gespeichert werden, auf die Amazon ML zugreifen soll, z.s3://mybucket/AmazonMLInput/
B.