Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon SageMaker Studio fornisce un'estensione SQL integrata. Questa estensione consente ai data scientist di eseguire attività come campionamento, analisi esplorativa e progettazione delle funzionalità direttamente all'interno dei propri JupyterLab notebook. Sfrutta le AWS Glue connessioni per mantenere un catalogo centralizzato delle fonti di dati. Il catalogo memorizza i metadati relativi a varie fonti di dati. Attraverso questo ambiente SQL, i data scientist possono sfogliare i cataloghi di dati, esplorare i loro dati, creare query SQL complesse ed elaborare ulteriormente i risultati in Python.
Questa sezione illustra la configurazione dell'estensione SQL in Studio. Descrive le funzionalità abilitate da questa integrazione SQL e fornisce istruzioni per l'esecuzione di query SQL nei JupyterLab notebook.
Per abilitare l'analisi dei dati SQL, gli amministratori devono prima configurare AWS Glue le connessioni alle fonti di dati pertinenti. Queste connessioni consentono ai data scientist di accedere senza problemi ai set di dati autorizzati dall'interno. JupyterLab
Oltre alle AWS Glue connessioni configurate dall'amministratore, l'estensione SQL consente ai singoli data scientist di creare le proprie connessioni alle fonti di dati. Queste connessioni create dall'utente possono essere gestite in modo indipendente e adattate al profilo dell'utente tramite politiche di controllo degli accessi basate su tag. Questo modello di connessione a due livelli, con connessioni configurate dall'amministratore e create dall'utente, offre ai data scientist un accesso più ampio ai dati di cui hanno bisogno per le loro attività di analisi e modellazione. Gli utenti possono configurare le connessioni necessarie alle proprie fonti di dati all'interno dell'interfaccia utente (UI) dell' JupyterLab ambiente, senza fare affidamento esclusivamente sulle connessioni centralizzate stabilite dall'amministratore.
Importante
La funzionalità di creazione di connessioni definite dall'utente è disponibile come set di librerie autonome in PyPI. Per utilizzare questa funzionalità, è necessario installare le seguenti librerie nel proprio ambiente: JupyterLab
È possibile installare queste librerie eseguendo i seguenti comandi nel JupyterLab terminale:
pip install amazon-sagemaker-sql-editor>=0.1.13
pip install amazon-sagemaker-sql-execution>=0.1.6
pip install amazon-sagemaker-sql-magic>=0.1.3
Dopo aver installato le librerie, sarà necessario riavviare il JupyterLab server per rendere effettive le modifiche.
restart-jupyter-server
Con la configurazione dell'accesso, JupyterLab gli utenti possono:
-
Visualizza e sfoglia le fonti di dati preconfigurate.
-
Cerca, filtra e ispeziona gli elementi informativi del database come tabelle, schemi e colonne.
-
Genera automaticamente i parametri di connessione a una fonte di dati.
-
Crea query SQL complesse utilizzando le funzionalità di evidenziazione della sintassi, completamento automatico e formattazione SQL dell'editor SQL dell'estensione.
-
Esegui istruzioni SQL dalle celle del notebook. JupyterLab
-
Recupera i risultati delle query SQL come pandas DataFrames per ulteriori attività di elaborazione, visualizzazione e altre attività di apprendimento automatico.
È possibile accedere all'estensione scegliendo l'icona dell'estensione SQL (
) nel riquadro di navigazione a sinistra dell' JupyterLab applicazione in Studio. Passando il mouse sull'icona viene visualizzato il relativo tooltip di Data Discovery.
Importante
-
L' JupyterLab immagine in SageMaker Studio contiene l'estensione SQL per impostazione predefinita, a partire da SageMaker AI Distribution 1.6
. L'estensione funziona solo con Python e SparkMagic kernel. -
L'interfaccia utente dell'estensione per esplorare connessioni e dati è disponibile solo JupyterLab all'interno di Studio. È compatibile con Amazon Redshift, Amazon Athena e Snowflake
.
-
Se sei un amministratore che desidera creare connessioni generiche a fonti di dati per l'estensione SQL, segui questi passaggi:
-
Abilita la comunicazione di rete tra il dominio Studio e le fonti di dati a cui desideri connetterti. Per ulteriori informazioni sui requisiti di rete, consultaConfigura l'accesso alla rete tra Studio e le fonti di dati (per gli amministratori).
-
Controlla le proprietà e le istruzioni di connessione per creare un segreto per la tua fonte di dati inCrea segreti per le credenziali di accesso al database in Secrets Manager.
-
Crea le AWS Glue connessioni alle tue fonti di dati inCrea AWS Glue connessioni (per amministratori).
-
Concedi al ruolo di esecuzione del tuo SageMaker dominio o dei tuoi profili utente le autorizzazioni richieste inConfigura le autorizzazioni IAM per accedere alle fonti di dati (per gli amministratori).
-
-
Se sei un data scientist e desideri creare connessioni personalizzate alle fonti di dati per l'estensione SQL, segui questi passaggi:
-
Chiedi al tuo amministratore di:
-
Abilita la comunicazione di rete tra il dominio Studio e le fonti di dati a cui desideri connetterti. Per ulteriori informazioni sui requisiti di rete, consultaConfigura l'accesso alla rete tra Studio e le fonti di dati (per gli amministratori).
-
Concedi al ruolo di esecuzione del tuo SageMaker dominio o dei tuoi profili utente le autorizzazioni richieste inConfigura le autorizzazioni IAM per accedere alle fonti di dati (per gli amministratori).
Nota
Gli amministratori possono limitare l'accesso degli utenti alle connessioni create all'interno dell' JupyterLab applicazione configurando il controllo degli accessi basato su tag nel ruolo di esecuzione.
-
-
Controlla le proprietà e le istruzioni di connessione per creare un segreto per la tua fonte di dati in. Crea segreti per le credenziali di accesso al database in Secrets Manager
-
Crea la tua connessione nell' JupyterLab interfaccia utente utilizzando le istruzioni inCrea connessioni definite dall'utente AWS Glue.
-
-
Se sei un data scientist che desidera sfogliare e interrogare le fonti di dati utilizzando l'estensione SQL, assicurati che tu o il tuo amministratore abbiate prima configurato le connessioni alle fonti di dati. Quindi, segui questi passaggi:
-
Crea uno spazio privato per avviare l' JupyterLab applicazione in Studio utilizzando l'immagine di SageMaker distribuzione versione 1.6 o successiva.
-
Se sei un utente della versione 1.6 dell'immagine di SageMaker distribuzione, carica l'estensione SQL in un JupyterLab notebook eseguendola
%load_ext amazon_sagemaker_sql_magic
in una cella del notebook.Per gli utenti delle versioni 1.7 e successive delle immagini di SageMaker distribuzione, non è necessaria alcuna azione, l'estensione SQL viene caricata automaticamente.
-
Acquisisci familiarità con le funzionalità dell'estensione SQL in. Caratteristiche e utilizzo dell'estensione SQL
-