Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorniamo più. Per ulteriori informazioni, consulta Cos'è Amazon Machine Learning.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Parametri obbligatori per la procedura guidata Crea origine dati
Affinché Amazon ML si connetta al database Amazon Redshift e legga i dati per conto dell'utente, è necessario fornire quanto segue:
-
Amazon Redshift
ClusterIdentifier
-
Il nome del database Amazon Redshift
-
Le credenziali del database Amazon Redshift (nome utente e password)
-
Amazon ML Amazon RedshiftAWS Identity and Access Management(IAM) ruolo
-
La query SQL Amazon Redshift
-
(Facoltativo) La posizione dello schema Amazon ML
-
Il percorso di gestione temporanea di Amazon S3 (dove Amazon ML colloca i dati prima di creare l'origine dati)
Inoltre, è necessario accertarsi che gli utenti o i ruoli IAM che creano le origini dati Amazon Redshift (tramite la console o utilizzando ilCreateDatasourceFromRedshift
azione) avere iliam:PassRole
autorizzazione.
- Amazon Redshift
ClusterIdentifier
-
Utilizzare questo parametro che distingue tra maiuscole e minuscole per consentire ad Amazon ML di trovare e connettersi al cluster. È possibile ottenere l'identificatore del cluster (nome) dalla console Amazon Redshift. Per ulteriori informazioni sui cluster, consultaCluster Amazon Redshift.
- Nome del database Amazon Redshift
-
Utilizzare questo parametro per indicare ad Amazon ML quale database del cluster Amazon Redshift contiene i dati che si desidera utilizzare come origine dati.
- Credenziali del database Amazon Redshift
-
Utilizzare questi parametri per specificare il nome utente e la password dell'utente del database Amazon Redshift nel cui contesto sarà eseguita la query di sicurezza.
Nota
Amazon ML richiede un nome utente e una password Amazon Redshift per connettersi al database Amazon Redshift. Dopo aver scaricato i dati in Amazon S3, Amazon ML non riutilizza mai la password, né la memorizza.
- Ruolo Amazon ML Amazon Redshift
-
Utilizzare questo parametro per specificare il nome del ruolo IAM che Amazon ML deve utilizzare per configurare i gruppi di sicurezza per il cluster Amazon Redshift e il bucket della policy per il percorso di gestione temporanea di Amazon S3.
Se non si dispone di un ruolo IAM in grado di accedere ad Amazon Redshift, Amazon ML può crearne uno. Quando Amazon ML crea un ruolo, crea e attribuisce una policy gestita dal cliente a un ruolo IAM. La policy che Amazon ML crea concede ad Amazon ML l'autorizzazione per accedere solo al cluster specificato dall'utente.
Se si dispone già di un ruolo IAM per accedere ad Amazon Redshift, è possibile digitare l'ARN del ruolo oppure scegliere il ruolo dall'elenco a discesa. I ruoli IAM con accesso Amazon Redshift sono elencati nella parte superiore dell'elenco a discesa.
Il ruolo IAM deve avere i seguenti contenuti:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
123456789012
" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012
:datasource/*" } } }] }Per ulteriori informazioni sulle policy gestite dal cliente, consultaPolicy gestite dal clientenellaIAM User Guide.
- Query SQL Amazon Redshift
-
Utilizzare questo parametro per specificare la query SQL SELECT che Amazon ML esegue nel database Amazon Redshift per selezionare i dati. Amazon ML utilizza Amazon RedshiftSCARICAREazione per copiare in modo sicuro i risultati della query in una posizione Amazon S3.
Nota
Amazon ML funziona meglio quando i record di input sono in ordine casuale (mischiati). È possibile mischiare i risultati della query SQL Amazon Redshift utilizzando Amazon Redshift.casuale ()funzione. Ad esempio, supponiamo che questa sia la query originale:
"SELECT col1, col2, … FROM training_table"
È possibile incorporare un mescolamento casuale aggiornando la query in questo modo:
"SELECT col1, col2, … FROM training_table ORDER BY random()"
- PosizionePosizione dello schema (facoltativa)
-
Utilizzare questo parametro per specificare il percorso Amazon S3 dello schema per i dati Amazon Redshift che Amazon ML esporterà.
Se non si fornisce uno schema per l'origine dati, la console di Amazon ML crea automaticamente uno schema Amazon ML in base allo schema dati della query SQL Amazon Redshift. Gli schemi Amazon ML dispongono di un minor numero di tipi di dati rispetto agli schemi Amazon Redshift, perciò non si tratta di una conversione uno-a-uno. La console Amazon ML converte i tipi di dati Amazon Redshift in tipi di dati Amazon ML utilizzando il seguente schema di conversione.
Tipi di dati Amazon Redshift Alias di Amazon Redshift Tipo di dati Amazon ML SMALLINT INT2 NUMERIC INTEGER INT, INT4 NUMERIC BIGINT INT8 NUMERIC DECIMAL NUMERIC NUMERIC REAL FLOAT4 NUMERIC DOUBLE PRECISION FLOAT8, FLOAT NUMERIC BOOLEAN BOOL BINARY CHAR CHARACTER, NCHAR, BPCHAR CATEGORICAL VARCHAR CHARACTER VARYING, NVARCHAR, TEXT TEXT DATE TEXT TIMESTAMP TIMESTAMP WITHOUT TIME ZONE TEXT Da convertire in Amazon ML
Binary
I tipi di dati, i valori Booleans Amazon Redshift nei dati devono essere valori Binary Amazon ML Binary supportati. Se il tipo di dati Boolean ha valori non supportati, Amazon ML li converte nel tipo di dati più specifico che riesce a trovare. Ad esempio, se un booleano Amazon Redshift ha i valori0
,1
, e2
, Amazon ML converte il valore booleano in unNumeric
tipo di dati. Per ulteriori informazioni sui valori binari supportati, consultare Utilizzo del campo AttributeType.Se Amazon ML non è in grado di individuare un tipo di dati, l'impostazione predefinita è
Text
.Dopo che Amazon ML ha convertito lo schema, è possibile esaminare e correggere i tipi di dati assegnati da Amazon ML nella procedura guidata Crea origine dati e rivedere lo schema prima che Amazon ML crei l'origine dati.
- Posizione temporanea di Amazon S3
-
Utilizzare questo parametro per specificare il nome del percorso di gestione temporanea di Amazon S3 in cui Amazon ML archivia i risultati della query SQL Amazon Redshift. Dopo aver creato l'origine dati, Amazon ML utilizza i dati nel percorso di gestione temporanea anziché tornare ad Amazon Redshift.
Nota
Poiché Amazon ML assume il ruolo IAM definito dal ruolo Amazon Redshift Amazon ML, Amazon ML dispone delle autorizzazioni per accedere a eventuali oggetti nel percorso specificato di gestione temporanea di Amazon S3. Per questo motivo, consigliamo di archiviare nel percorso di gestione temporanea di Amazon S3 solo i file che non contengono informazioni sensibili. Ad esempio, se il bucket root è
s3://mybucket/
, consigliamo di creare una posizione per archiviare solo i file a cui si desidera che Amazon ML abbia accesso, comes3://mybucket/AmazonMLInput/
.