Quickstart: interroga i dati in Amazon S3

Modalità Focus

Quickstart: interroga i dati in Amazon S3 - Amazon SageMaker AI

Fase 1: indicizza i tuoi dati in Amazon S3 usando Athena e AWS Glue Passaggio 2: concedere a Studio le autorizzazioni per accedere ad Athena Fase 3: Attivare la connessione predefinita Athena in JupyterLab Fase 4: Esecuzione di query sui dati in Amazon S3

Gli utenti possono analizzare i dati archiviati in Amazon S3 eseguendo query SQL da JupyterLab notebook utilizzando l'estensione SQL. L'estensione si integra con Athena abilitando la funzionalità per i dati in Amazon S3 con alcuni passaggi aggiuntivi.

Questa sezione illustra i passaggi per caricare i dati da Amazon S3 in Athena e quindi interrogare tali dati JupyterLab utilizzando l'estensione SQL. Creerai un'origine dati e un AWS Glue crawler Athena per indicizzare i tuoi dati Amazon S3, configurerai le autorizzazioni IAM appropriate per consentire l' JupyterLab accesso ad Athena e JupyterLab ti connetterai ad Athena per interrogare i dati. Seguendo questi pochi passaggi, sarai in grado di analizzare i dati di Amazon S3 utilizzando l'estensione SQL nei JupyterLab notebook.

Prerequisiti

Accedi alla console di AWS gestione utilizzando un account utente AWS Identity and Access Management (IAM) con autorizzazioni di amministratore. Per informazioni su come registrare un AWS account e creare un utente con accesso amministrativo, consultaPrerequisiti completi per Amazon SageMaker AI.
Disponi di un dominio SageMaker AI e di un profilo utente per accedere a SageMaker Studio. Per informazioni su come impostare un ambiente di SageMaker intelligenza artificiale, consultaUsa la configurazione rapida per Amazon SageMaker AI.
Disponi di un bucket e di una cartella Amazon S3 per archiviare i risultati delle query Athena, utilizzando la stessa AWS regione e lo stesso account del tuo ambiente AI. SageMaker Per informazioni su come creare un bucket in Amazon S3, consulta Creazione di un bucket nella documentazione di Amazon S3. Configurerai questo bucket e questa cartella come posizione di output della tua query.

Per accedere e interrogare i dati in Amazon S3:

Passaggio 1: configura un'origine dati e un AWS Glue crawler Athena per i tuoi dati Amazon S3
Passaggio 2: concedere a Studio le autorizzazioni per accedere ad Athena
Fase 3: Attivare la connessione predefinita Athena in JupyterLab
Fase 4: Interrogare i dati in Amazon S3 dai JupyterLab notebook utilizzando l'estensione SQL

Passaggio 1: configura un'origine dati e un AWS Glue crawler Athena per i tuoi dati Amazon S3

Segui questi passaggi per indicizzare i tuoi dati in Amazon S3 e creare tabelle in Athena.

Nota

Per evitare collisioni tra i nomi delle tabelle da diverse posizioni Amazon S3, crea un'origine dati e un crawler separati per ogni posizione. Ogni fonte di dati crea una tabella con il nome della cartella che la contiene, a meno che non sia prefisso un prefisso.

Configura la posizione dei risultati della query
1. Vai alla console Athena:. https://console.aws.amazon.com/athena/
2. Dal menu a sinistra, scegli Gruppi di lavoro.
3. Segui il link relativo al primary gruppo di lavoro e scegli Modifica.
4. Nella sezione Configurazione dei risultati della query, inserisci il percorso Amazon S3 per la tua directory di output, quindi scegli Salva modifiche.
Crea un'origine dati Athena per i tuoi dati Amazon S3
1. Dal menu a sinistra della console Athena, scegli Origini dati e poi Crea origine dati.
2. Scegli S3 - AWS Glue Data Catalog e poi Avanti.
3. Lascia il AWS Glue Data Catalog predefinito in questo account, scegli Crea un crawler AWS Glue e poi Crea in. AWS Glue Verrà aperta la console. AWS Glue
AWS Glue Usalo per scansionare la tua fonte di dati
1. Inserisci un nome e una descrizione per il tuo nuovo crawler, quindi scegli Avanti.
2. In Fonti dati, scegli Aggiungi un'origine dati.
  1. Se il bucket Amazon Amazon S3 contenente i tuoi dati si trova in un AWS account diverso rispetto al tuo ambiente SageMaker AI, scegli In un account diverso per la posizione dei dati S3.
  2. Inserisci il percorso del tuo set di dati in Amazon S3. Per esempio:
```
s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/
```
  3. Conserva tutti gli altri valori predefiniti, quindi scegli Aggiungi un'origine dati Amazon S3. Dovresti vedere una nuova origine dati Amazon S3 nella tabella delle origini dati.
  4. Scegli Next (Successivo).
3. Configura il ruolo IAM per consentire al crawler di accedere ai tuoi dati.
  
  Nota
  Ogni ruolo è limitato all'origine dati specificata. Quando riutilizzi un ruolo, modifica la policy JSON per aggiungere qualsiasi nuova risorsa a cui desideri concedere l'accesso o crea un nuovo ruolo per questa fonte di dati.
  1. Scegli Crea nuovo ruolo IAM.
  2. Inserisci un nome per il ruolo, quindi scegli Avanti.
Crea o seleziona un database per le tue tabelle
1. Se non disponi di un database esistente in Athena, scegli Aggiungi database e poi Crea un nuovo database.
2. Tornando alla scheda di creazione del crawler precedente, nella configurazione di output, scegli il pulsante Aggiorna. Ora dovresti vedere il database appena creato nell'elenco.
3. Seleziona il tuo database, aggiungi un prefisso opzionale nel prefisso del nome della tabella e poi scegli Avanti.
  
  Nota
  Nell'esempio precedente in cui si trovano i datis3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/, l'aggiunta del prefisso taxi-ride- creerà una tabella denominata. taxi-ride-year_2019 L'aggiunta di un prefisso aiuta a prevenire le collisioni tra i nomi delle tabelle quando più posizioni di dati hanno cartelle con lo stesso nome.
Scegli Crea crawler.
Esegui il crawler per indicizzare i tuoi dati. Attendi che l'esecuzione del crawler raggiunga uno Completed stato, operazione che potrebbe richiedere alcuni minuti.

Per assicurarti che sia stata creata una nuova tabella, vai al menu a sinistra di AWS Glue e scegli Database, quindi Tabelle. Ora dovresti vedere una nuova tabella contenente i tuoi dati.

Passaggio 2: concedere a Studio le autorizzazioni per accedere ad Athena

Nei passaggi seguenti concedi al ruolo di esecuzione del tuo profilo utente le autorizzazioni per accedere ad Athena.

Recupera l'ARN del ruolo di esecuzione associato al tuo profilo utente
1. Vai alla console SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/e scegli Domini nel menu a sinistra.
2. Segui il nome del tuo nome di dominio.
3. Nell'elenco Profili utente, segui il nome del tuo profilo utente.
4. Nella pagina Dettagli utente, copia l'ARN del ruolo di esecuzione.

Aggiorna la politica del tuo ruolo di esecuzione

Trova la tua AWS regione e l'ID dell'account in alto a destra nella console SageMaker AI. Usa questi valori e il nome del tuo database per aggiornare i segnaposto nella seguente politica JSON in un editor di testo.


{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Sid": "GetS3AndDataSourcesMetadata",
			"Effect": "Allow",
			"Action": [
				"glue:GetDatabases",
				"glue:GetSchema",
				"glue:GetTables",
				"s3:ListBucket",
				"s3:GetObject",
				"s3:GetBucketLocation",
				"glue:GetDatabase",
				"glue:GetTable",
				"glue:ListSchemas",
				"glue:GetPartitions"
			],
			"Resource": [
				"arn:aws:s3:::*",
				"arn:aws:glue:region:account-id:catalog",
				"arn:aws:glue:region:account-id:database/db-name"
			]
		},
		{
			"Sid": "ExecuteAthenaQueries",
			"Effect": "Allow",
			"Action": [
				"athena:ListDataCatalogs",
				"athena:ListDatabases",
				"athena:ListTableMetadata",
				"athena:StartQueryExecution",
				"athena:GetQueryExecution",
				"athena:RunQuery",
				"athena:StartSession",
				"athena:GetQueryResults",
				"athena:ListWorkGroups",
				"s3:ListMultipartUploadParts",
				"s3:ListBucket",
				"s3:GetBucketLocation",
				"athena:GetDataCatalog",
				"s3:AbortMultipartUpload",
				"s3:GetObject",
				"s3:PutObject",
				"athena:GetWorkGroup"
			],
			"Resource": [
				"arn:aws:s3:::*"
			]
		},
		{
			"Sid": "GetGlueConnectionsAndSecrets",
			"Effect": "Allow",
			"Action": [
				"glue:GetConnections",
				"glue:GetConnection"
			],
			"Resource": [
				"*"
			]
		}
	]
}

Vai alla console IAM: https://console.aws.amazon.com/iam/e scegli Ruoli nel menu a sinistra.
Cerca il tuo ruolo in base al nome del ruolo.

Nota
Puoi recuperare il nome di un ruolo di esecuzione dal relativo Amazon Resource Name (ARN) suddividendo l''/'ARN e prendendo l'ultimo elemento. Ad esempio, nel seguente esempio di ARNarn:aws:iam::112233445566:role/SageMakerStudio-SQLExtension-ExecutionRole, il nome del ruolo di esecuzione è. SageMakerStudio-SQLExtension-ExecutionRole
Segui il link relativo al tuo ruolo.
Nella scheda Autorizzazioni, scegli Aggiungi autorizzazioni, quindi Crea politica in linea.
Scegli il JSON formato nella sezione Editor delle politiche.
Copia la politica sopra riportata, quindi scegli Avanti. Assicurati di aver sostituito tutti account-id i region-name e db-name con i relativi valori.
Inserisci un nome per la tua politica, quindi scegli Crea politica.

Fase 3: Attivare la connessione predefinita Athena in JupyterLab

Nei passaggi seguenti, abiliti un default-athena-connection nella tua JupyterLab applicazione. La connessione Athena predefinita consente di eseguire query SQL in Athena direttamente da JupyterLab, senza la necessità di creare manualmente una connessione.

Per abilitare la connessione Athena predefinita

Vai alla console SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/e scegli Studio nel menu a sinistra. Avvia Studio utilizzando il tuo dominio e il tuo profilo utente.
Scegli l' JupyterLab applicazione.
Se non hai creato uno spazio per l' JupyterLab applicazione, scegli Crea uno JupyterLab spazio. Immettete un nome per lo spazio, mantenete lo spazio come privato, quindi scegliete Crea spazio. Gestisci il tuo spazio utilizzando l'ultima versione dell'immagine SageMaker AI Distribution.

Altrimenti, scegli Esegui spazio sul tuo spazio per avviare un' JupyterLab applicazione.
Abilita la connessione predefinita Athena:
1. Nell' JupyterLab applicazione, accedi al menu Impostazioni nella barra di navigazione in alto e apri il menu dell'editor delle impostazioni.
2. Scegli Data Discovery.
3. Seleziona la casella Abilita la connessione Athena predefinita.
4. Nell' JupyterLab applicazione, scegli l'icona dell'estensione SQL ( ) nel riquadro di navigazione a sinistra per aprire l'estensione SQL.
5. Scegli il pulsante Aggiorna nella parte inferiore del pannello di scoperta dei dati. Dovresti vedere un default-athena-connection nell'elenco delle connessioni.

Fase 4: Interrogare i dati in Amazon S3 dai JupyterLab notebook utilizzando l'estensione SQL

Sei pronto per interrogare i tuoi dati utilizzando SQL nei tuoi notebook. JupyterLab

Apri la connessione e poi. default-athena-connection AWS DataCatalog
Accedi al database e scegli l'icona a tre punti ( ) sulla destra. Seleziona Query nel taccuino.

Questo comando compila automaticamente una cella del notebook JupyterLab con il comando %%sm_sql magico corrispondente per connettersi alla fonte dati. Aggiunge anche un'istruzione SQL di esempio per aiutarti a iniziare subito a eseguire query.

Nota
Assicurati di caricare l'estensione nella cella superiore prima di eseguire una query SQL.

È possibile perfezionare ulteriormente la query SQL utilizzando le funzionalità di completamento automatico ed evidenziazione dell'estensione. Funzionalità dell'editor SQL dell'estensione JupyterLab SQLPer ulteriori informazioni sull'utilizzo dell'estensione SQL, vedere l'editor SQL.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Preparazione dei dati con SQL in Studio

Panoramica e utilizzo delle funzionalità

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Quickstart: interroga i dati in Amazon S3

Prerequisiti

Per accedere e interrogare i dati in Amazon S3:

Passaggio 1: configura un'origine dati e un AWS Glue crawler Athena per i tuoi dati Amazon S3

Nota

Nota

Nota

Passaggio 2: concedere a Studio le autorizzazioni per accedere ad Athena

Nota

Fase 3: Attivare la connessione predefinita Athena in JupyterLab

Fase 4: Interrogare i dati in Amazon S3 dai JupyterLab notebook utilizzando l'estensione SQL

Nota

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?