Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di connettori personalizzati
Puoi anche creare il tuo connettore e poi caricare il codice del connettore su AWS Glue Studio.
I connettori personalizzati sono integrati in AWS Glue Studio attraverso il AWS Glue API di runtime Spark. Il AWS Glue Il runtime Spark ti consente di collegare qualsiasi connettore compatibile con l'interfaccia Spark, Athena o JDBC. Consente di aggiungere qualsiasi opzione di connessione disponibile per il connettore personalizzato.
Puoi incapsulare tutte le proprietà della connessione con AWS Glue Connessioni e fornisci il nome della connessione al tuo job ETL. L'integrazione con le connessioni del catalogo dati consente di utilizzare le stesse proprietà di connessione per più chiamate in una singola applicazione Spark o in applicazioni diverse.
Puoi specificare ulteriori opzioni per la connessione. Lo script di lavoro che AWS Glue Studio genera contiene una Datasource
voce che utilizza la connessione per collegare il connettore con le opzioni di connessione specificate. Per esempio:
Datasource = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"dbTable":"Account","connectionName":"my-custom-jdbc- connection"}, transformation_ctx = "DataSource0")
Per aggiungere un connettore personalizzato a AWS Glue Studio
-
Crea il codice per il connettore personalizzato. Per ulteriori informazioni, consulta Sviluppo di connettori personalizzati.
-
Aggiungere il supporto per AWS Glue funzionalità del connettore. Ecco alcuni esempi di queste funzionalità e di come vengono utilizzate all'interno dello script di lavoro generato da AWS Glue Studio:
-
Mappatura dei dati: il connettore può eseguire il typecast le colonne durante la lettura dal datastore sottostante. Ad esempio, una
dataTypeMapping
di{"INTEGER":"STRING"}
converte tutte le colonne di tipoInteger
in colonne di tipoString
durante l'analisi dei record e la costruzione delDynamicFrame
. In questo modo gli utenti possono eseguire il cast delle colonne nel tipo desiderato.DataSource0 = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"dataTypeMapping":{"INTEGER":"STRING"}", connectionName":"test-connection-jdbc"}, transformation_ctx = "DataSource0")
-
Partizionamento per letture parallele — AWS Glue consente la lettura parallela dei dati dal data store partizionando i dati su una colonna. È necessario specificare la colonna, il limite inferiore e il limite superiore della partizione e il numero di partizioni. Questa funzione consente di utilizzare il parallelismo dei dati e più executor Spark allocati per l'applicazione Spark.
DataSource0 = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"upperBound":"200","numPartitions":"4", "partitionColumn":"id","lowerBound":"0","connectionName":"test-connection-jdbc"}, transformation_ctx = "DataSource0")
-
Utilizzo AWS Secrets Manager per l'archiviazione delle credenziali: la connessione Data Catalog può contenere anche un
secretId
file segreto memorizzato in. AWS Secrets Manager Il AWS segreto può archiviare in modo sicuro le informazioni di autenticazione e credenziali e fornirle in fase di esecuzione. AWS Glue In alternativa, è possibile specificare l'secretId
dallo script Spark come segue:DataSource = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"connectionName":"test-connection-jdbc", "secretId"-> "my-secret-id"}, transformation_ctx = "DataSource0")
-
Filtraggio dei dati di origine con predicati di riga e proiezioni di colonne: AWS Glue Il runtime Spark consente inoltre agli utenti di inviare query SQL per filtrare i dati all'origine con predicati di riga e proiezioni di colonne. Ciò permette al processo ETL di caricare i dati filtrati più velocemente dagli archivi dati che supportano push-down. Un esempio di query SQL trasferita in un'origine dati JDBC è:
SELECT id, name, department FROM department WHERE id < 200.
DataSource = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"query":"SELECT id, name, department FROM department WHERE id < 200","connectionName":"test-connection-jdbc"}, transformation_ctx = "DataSource0")
-
Segnalibri Job — AWS Glue supporta il caricamento incrementale di dati da fonti JDBC. AWS Glue tiene traccia dell'ultimo record elaborato dal data store ed elabora nuovi record di dati nelle successive esecuzioni di job ETL. I segnalibri di processo utilizzano la chiave primaria come colonna predefinita per il tasto segnalibro, a condizione che questa colonna aumenti o diminuisca in sequenza. Per ulteriori informazioni sui segnalibri di processo, consulta Segnalibri di processo nella Guida per sviluppatori di AWS Glue .
DataSource0 = glueContext.create_dynamic_frame.from_options(connection_type = "custom.jdbc", connection_options = {"jobBookmarkKeys":["empno"], "jobBookmarkKeysSortOrder" :"asc", "connectionName":"test-connection-jdbc"}, transformation_ctx = "DataSource0")
-
-
Impacchetta il connettore personalizzato come file JAR e carica il file su Amazon S3.
-
Testa il connettore personalizzato. Per ulteriori informazioni, consulta le istruzioni su Glue Custom Connectors: GitHub Local Validation Tests Guide
. -
Nel AWS Glue Studio nella console, scegli Connettori nel riquadro di navigazione della console.
-
Nella pagina Connectors (Connettori), seleziona Create custom connector (Crea connettore personalizzato).
-
Nella pagina Create custom connecto (Crea connettore personalizzato), immetti le seguenti informazioni:
-
Il percorso della posizione del file JAR di codice personalizzato in Amazon S3.
-
Un nome per il connettore che verrà utilizzato da AWS Glue Studio.
-
Il tipo di connettore, che può essere uno tra JDBC, Spark o Athena.
-
Il nome del punto di ingresso all'interno del codice personalizzato che AWS Glue Studio chiamate per utilizzare il connettore.
-
Per i connettori JDBC, questo campo deve essere il nome della classe del driver JDBC.
-
Per i connettori Spark, questo campo deve essere il nome completo della classe dell'origine dati, o il relativo alias, che si utilizza quando si carica l'origine dati Spark con l'operatore
format
.
-
-
(Solo JDBC) L'URL di base utilizzato dalla connessione JDBC per l'archivio dati.
-
(Facoltativo) Una descrizione del connettore personalizzato.
-
-
Scegli Create connector (Crea connettore).
-
Dalla pagina Connectors (Connettori), crea una connessione che utilizza questo connettore, come descritto in Creazione di connessioni per i connettori.
Aggiungere connettori a AWS Glue Studio
Un connettore è un pezzo di codice che facilita la comunicazione tra l'archivio dati e AWS Glue. È possibile abbonarsi a un connettore disponibile in Marketplace AWS oppure creare un connettore personalizzato.
Iscrizione ai Marketplace AWS connettori
AWS Glue Studio semplifica l'aggiunta di connettori da Marketplace AWS.
Per aggiungere un connettore da Marketplace AWS a AWS Glue Studio
-
Nel AWS Glue Studio nella console, scegli Connettori nel riquadro di navigazione della console.
-
Nella pagina Connectors (Connectors), scegli Go to Marketplace AWS (Vai su Marketplace AWS).
-
In Marketplace AWS, in Prodotti in evidenza, scegli il connettore che desideri utilizzare. Puoi scegliere uno dei connettori in evidenza o utilizzare la ricerca. Puoi eseguire la ricerca in base al nome o al tipo di connettore e utilizzare le opzioni per perfezionare i risultati della ricerca.
Se desideri utilizzare uno dei connettori in evidenza, scegli View product (Visualizza prodotto). Se hai usato la ricerca per trovare un connettore, scegli il nome del connettore.
-
Nella pagina prodotto del connettore, utilizza le schede per visualizzare le informazioni sul connettore. Se decidi di acquistare il connettore, scegli Continue to Subscribe (Continua con la sottoscrizione).
-
Inserisci le informazioni di pagamento, quindi scegli Continue to Configure (Continua con la configurazione).
-
Nella pagina Configure this software (Configurazione software), scegli il metodo di implementazione e la versione del connettore da utilizzare. Quindi, scegli Continue to Launch (Continua con l'avvio).
-
Nella pagina Launch this software (Avvia software), puoi rivedere le istruzioni di utilizzo fornite dal provider del connettore. Quando sei pronto per continuare, scegli Attiva connessione in AWS Glue Studio.
Dopo un breve periodo di tempo, la console visualizza la pagina Crea connessione al marketplace in AWS Glue Studio.
-
Crea una connessione che utilizza questo connettore, come descritto in Creazione di connessioni per i connettori.
In alternativa, ora puoi scegliere Activate connector only (Attiva solo connettore) per ignorare la creazione di una connessione. Devi creare una connessione in un secondo momento prima di poter utilizzare il connettore.