Connessione ai dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connessione ai dati

Una AWS Glue connessione è un oggetto Data Catalog che memorizza le credenziali di accesso, le stringhe URI, le informazioni sul cloud privato virtuale (VPC) e altro per un particolare archivio dati. AWS Glue i crawler, i job e gli endpoint di sviluppo utilizzano le connessioni per accedere a determinati tipi di archivi dati. È possibile utilizzare le connessioni sia per le origini che per le destinazioni e riutilizzare la stessa connessione su più crawler o più processi di estrazione, trasformazione e caricamento (ETL).

L'ultima versione dello schema delle AWS Glue connessioni offre un modo unificato per gestire le connessioni dati tra AWS servizi e applicazioni AWS Glue Amazon Athena, come Unified Studio. Amazon SageMaker AI

Panoramica sull'utilizzo di connettori e connessioni

Una connessione contiene le proprietà necessarie per connettersi a un particolare datastore. Quando crei una connessione, questa viene archiviata in AWS Glue Data Catalog. Scegli un connettore e quindi crea una connessione basata su di esso.

Puoi sottoscrivere connettori per archivi dati non supportati in Marketplace AWS modo nativo e quindi utilizzarli durante la creazione di connessioni. Gli sviluppatori possono anche creare i propri connettori ed è possibile utilizzarli durante la creazione di connessioni.

Nota

Le connessioni create utilizzando Marketplace AWS connettori personalizzati o in AWS Glue Studio vengono visualizzate nella AWS Glue console con il tipo impostato su. UNKNOWN

I passaggi seguenti descrivono il processo generale di utilizzo dei connettori in AWS Glue Studio:

  1. Iscriviti a un connettore in Marketplace AWS oppure sviluppa il tuo connettore e caricalo su AWS Glue Studio. Per ulteriori informazioni, consulta Aggiunta di connettori a AWS Glue Studio.

  2. Esamina le informazioni sull'utilizzo del connettore. Puoi trovare queste informazioni nella scheda Usage (Utilizzo) nella pagina prodotto del connettore. Ad esempio, se fai clic sulla scheda Utilizzo in questa pagina di prodotto, AWS Glue Connector for Google BigQuery, puoi vedere nella sezione Risorse aggiuntive un link a un blog sull'utilizzo di questo connettore.

  3. Crea una connessione. Puoi scegliere quale connettore utilizzare e fornire informazioni aggiuntive per la connessione, ad esempio le credenziali di accesso, le stringhe URI e le informazioni sul cloud privato virtuale (VPC). Per ulteriori informazioni, consulta Creazione di connessioni per i connettori.

  4. Creare un ruolo IAM per il processo. Il processo assume le autorizzazioni del ruolo IAM specificate al momento della creazione. Questo ruolo IAM deve avere le autorizzazioni necessarie per autenticare, estrarre e scrivere dati nei datastore.

  5. Crea un processo ETL e configura le proprietà dell'origine dati per il processo ETL. Fornire le opzioni di connessione e le informazioni di autenticazione secondo le istruzioni fornite dal provider di connettori personalizzati. Per ulteriori informazioni, consulta Creazione di processi con connettori personalizzati.

  6. Personalizza il processo ETL aggiungendo trasformazioni o datastore aggiuntivi, come descritto in Avvio di ETL lavori visivi in AWS Glue Studio.

  7. Se usi un connettore per la destinazione dati, configura le proprietà della destinazione dati per il processo ETL. Fornire le opzioni di connessione e le informazioni di autenticazione secondo le istruzioni fornite dal provider di connettori personalizzati. Per ulteriori informazioni, consulta Creazione di processi con connettori personalizzati.

  8. Personalizza l'ambiente di esecuzione configurando le proprietà del processo, come descritto in Modificare le proprietà del processo.

  9. Esegui il processo.

Connessioni unificate

Con le connessioni unificate, è possibile configurare una connessione dati una sola volta e può essere riutilizzata da vari servizi per casi d'uso nell'integrazione dei dati, nell'analisi dei dati e nella scienza dei dati. È possibile creare connessioni dati tramite la AWS Glue console o applicazioni personalizzate utilizzando la connettività dati unificata. APIs Con le connessioni unificate, puoi configurare una connessione a un'origine dati utilizzando un modello di configurazione della connessione standardizzato per più servizi. Questi servizi (AWS Glue, Amazon SageMaker AI Unified Studio e Amazon Athena) possono condividere e riutilizzare la stessa connessione con una corretta configurazione delle autorizzazioni.

AWS Glue Studio ora crea connessioni unificate per impostazione predefinita. Nella AWS Glue console, è possibile visualizzare la versione della connessione nella tabella delle connessioni nella pagina delle connessioni, nella pagina dei dettagli delle connessioni e nella tabella delle connessioni nella pagina dei dettagli del lavoro.

La versione della connessione è visibile nei dettagli della connessione:

La schermata mostra i dettagli delle connessioni sulla connessione v2.

La versione della connessione è visibile anche quando si visualizzano tutte le connessioni.

La schermata mostra i dettagli delle connessioni sulla connessione v2.

Infine, la versione di connessione è visibile nella scheda Dettagli del lavoro per un lavoro.

La schermata mostra i dettagli delle connessioni sulla connessione v2.

Con le connessioni della versione 2, sono disponibili le seguenti funzionalità estese di connettività dati:

  • Individuazione del tipo di connessione: Supporto per la creazione di connessioni utilizzando modelli standardizzati. AWS Glue rileva automaticamente i tipi di connessione accessibili dall'utente e gli ingressi richiesti e opzionali per un determinato tipo di connessione.

  • Riusabilità: definizioni di connessione riutilizzabili su motori e strumenti di elaborazione AWS dati come, e. AWS Glue Amazon Athena Amazon SageMaker AI Le connessioni ora contengono AthenaProperties, SparkProperties, PythonProperties che consentono di specificare proprietà di connessione specifiche dell'ambiente di calcolo/servizio oltre alle proprietà comuni memorizzate in. ConnectionProperties Athena ora crea connessioni AWS Glue specificando proprietà specifiche di Athena nella mappa delle proprietà. AthenaProperties

  • Anteprima dei dati: possibilità di sfogliare i metadati e visualizzare in anteprima i dati provenienti da fonti connesse.

  • Metadati dei connettori: è possibile utilizzare connessioni riutilizzabili per scoprire i metadati delle tabelle.

  • Segreti collegati al servizio: gli utenti possono fornire le credenziali di autenticazione necessarie OAuth, di base o personalizzate nella richiesta. CreateConnection L' CreateConnection API crea un Service Linked Secret nel tuo account e memorizza le credenziali per tuo conto.

Tipi di autenticazione supportati

Le connessioni unificate supportano i seguenti tipi di autenticazione:

  • BASIC: la maggior parte dei tipi di connessione al database e dei tipi di AWS Glue connessione esistenti supporta l'autenticazione di base, che consiste in un nome utente e una password. In precedenza, la denominazione delle chiavi SecretsManager era specifica del connettore e, ad esempio, poteva essere user, username, UserName, opensearch.net.http.auth.user, ecc. È qui che le connessioni unificate standardizzavano i tipi di connessione di autenticazione di base sulle chiavi USERNAME e PASSWORD.

  • OAUTH2— La maggior parte dei tipi di connessione SaaS lanciati di recente supporta il OAuth2 protocollo.

  • PERSONALIZZATO: alcuni tipi di connessione dispongono di altri meccanismi di autenticazione come Google, BigQuery in cui gli utenti sono tenuti a fornire il JSON che ricevono da Google. BigQuery

Considerazioni

Quando crei una connessione unificata per le fonti di dati, considera le seguenti differenze:

  • Quando si crea una connessione unificata tramite AWS Glue Studio, le credenziali utente vengono archiviate in AWS Secrets Manager anziché nella connessione stessa. Ciò significa che ora i lavori devono accedere a Secrets Manager.

  • Se i lavori vengono eseguiti in un VPC, richiedono un endpoint VPC o un gateway NAT per accedere AWS Secrets Manager e Secure Token Service (STS), che comporta costi aggiuntivi.

  • Per alcune fonti di dati (Redshift, SQL Server, MySQL, Oracle, PostgreSQL), la creazione di una connessione unificata tramite richiede l'accesso a e. AWS Glue Studio AWS STS AWS Secrets Manager Ciò è necessario per stabilire una connessione sicura e recuperare le credenziali necessarie per accedere a queste fonti di dati all'interno del Virtual Private Cloud (VPC).

  • La creazione di una connessione unificata tramite AWS Glue Studio richiede un ruolo IAM con autorizzazioni per accedere AWS Secrets Manager e gestire le risorse VPC (se si utilizza un VPC):

    • gestore dei segreti: GetSecretValue

    • gestore dei segreti: PutSecretValue

    • gestore dei segreti: DescribeSecret

    • ec2: CreateNetworkInterface

    • ec2: DeleteNetworkInterface

    • ec2: DescribeNetworkInterfaces