Tutorial: utilizzo del AWS Glue connettore per Elasticsearch - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Tutorial: utilizzo del AWS Glue connettore per Elasticsearch

Elasticsearch è un diffuso motore di ricerca e analisi dei dati open source per casi d'uso come analisi dei dati dei log, monitoraggio delle applicazioni in tempo reale e analisi dei dati di clickstream. Puoi utilizzarlo OpenSearch come archivio dati per i tuoi lavori di estrazione, trasformazione e caricamento (ETL) configurando il AWS Glue Connector for Elasticsearch in. AWS Glue Studio Questo connettore è disponibile gratuitamente da Marketplace AWS.

In questo tutorial, mostreremo come connetterti ai tuoi nodi Amazon OpenSearch Service con un numero minimo di passaggi.

Prerequisiti

Per utilizzare questo tutorial, è necessario disporre di quanto segue:

  • Accesso a AWS Glue Studio

  • Accesso a un OpenSearch cluster nel AWS cloud

  • (Facoltativo) Accesso a AWS Secrets Manager.

Passaggio 1: (Facoltativo) Crea un AWS segreto per le informazioni sul OpenSearch cluster

Per archiviare e utilizzare in modo sicuro le credenziali di connessione, salvale in AWS Secrets Manager. Il segreto creato verrà utilizzato più avanti nel tutorial dalla connessione. Le coppie chiave-valore delle credenziali verranno inserite nel AWS Glue Connector for Elasticsearch come normali opzioni di connessione.

Per ulteriori informazioni sulla creazione dei segreti, consulta Creazione e gestione di segreti con AWS Secrets Manager nella Guida per l'utente di AWS Secrets Manager .

Per creare un segreto AWS
  1. Accedere alla console AWS Secrets Manager.

  2. Nella pagina di introduzione del servizio o nella pagina dell'elenco Secrets (Segreti), scegli Store a new secret (Archivia un nuovo segreto).

  3. Nella pagina Store a new secret (Archivia un nuovo segreto), scegli Other type of secret (Altro tipo di segreto). Questa opzione indica che devi fornire la struttura e i dettagli del tuo segreto.

  4. Aggiungi una coppia chiave e valore per il nome utente del OpenSearch cluster. Per esempio:

    es.net.http.auth.user: username

  5. Scegli + Add row (+ Aggiungi riga) e inserisci un'altra coppia chiave-valore per la password. Per esempio:

    es.net.http.auth.pass: password

  6. Scegli Next (Successivo).

  7. Immetti il nome di un segreto. Ad esempio: my-es-secret. Facoltativamente, puoi inserire una descrizione.

    Registra il nome del segreto, che viene utilizzato più avanti in questo tutorial, quindi scegli Next (Successivo).

  8. Scegli di nuovo Next (Successivo), quindi scegli Store (Archivia) per creare il segreto.

Approfondimenti

Fase 2: sottoscrizione al connettore

Fase 2: sottoscrizione al connettore

Il AWS Glue Connector for Elasticsearch è disponibile gratuitamente da. Marketplace AWS

Per abbonarsi al AWS Glue Connector for Elasticsearch su Marketplace AWS
  1. Se non hai già configurato il tuo AWS account per l'utilizzo di License Manager, procedi come segue:

    1. Apri la AWS License Manager console in https://console.aws.amazon.com/license-manager.

    2. Scegli Create customer managed license (Crea una licenza gestita dal cliente).

    3. Nella finestra delle IAMautorizzazioni (configurazione unica), scegli Concedo le autorizzazioni richieste, quindi scegli Concedi AWS License Manager autorizzazioni.

      Se non vedi questa finestra, hai già configurato le autorizzazioni necessarie.

  2. Apri la console AWS Glue Studio all'indirizzo https://console.aws.amazon.com/gluestudio/.

  3. Nella AWS Glue Studio console, espandi l'icona del menu ( 3 short, horizontal lines in a vertical stack ), quindi scegli Connettori nel riquadro di navigazione.

  4. Nella pagina Connectors (Connectors), scegli Go to Marketplace AWS (Vai su Marketplace AWS).

  5. Nella sezione Cerca AWS Glue Studio prodotti Marketplace AWS, inserisci AWS Glue Connector for Elasticsearch nel campo di ricerca, quindi premi Invio.

  6. Seleziona il nome del connettore, Connettore AWS Glue per Elasticsearch.

  7. Nella pagina prodotto del connettore, utilizza le schede per visualizzare le relative informazioni. Quando vuoi continuare, scegli Continue to Subscribe (Continua con la sottoscrizione).

  8. Rivedi i termini di utilizzo del software. Fai clic su Accetta termini.

  9. Al termine del processo di sottoscrizione, verrà visualizzata una notifica: "Grazie per esserti registrato a questo prodotto! Adesso puoi configurare il software". Sopra il banner ci sarà il pulsante Passa alla configurazione. Scegli Continue to Configuration (Passa alla configurazione).

  10. Scegli l'opzione Fulfillment (Compimento) sulla pagina Configure this software (Configura questo software). Puoi scegliere tra AWS Glue 1.0/2.0 o 3.0. AWS Glue Quindi, scegli Continue to Launch (Continua con l'avvio).

Approfondimenti

Fase 3: Attivare il connettore AWS Glue Studio e creare una connessione

Fase 3: Attivare il connettore AWS Glue Studio e creare una connessione

Dopo aver scelto Continua all'avvio, viene visualizzata la pagina Avvia questo software in Marketplace AWS. Dopo aver utilizzato il collegamento per attivare il connettore AWS Glue Studio, si crea una connessione.

Per distribuire il connettore e creare una connessione in AWS Glue Studio
  1. Nella pagina Avvia questo software nella Marketplace AWS console, scegli Istruzioni per l'uso, quindi scegli il link nella finestra che appare.

    Il browser viene reindirizzato alla pagina Crea connessione al marketplace della AWS Glue Studio console.

  2. Inserisci un nome per la connessione. Per esempio: my-es-connection.

  3. Nella sezione Connection access (Accesso alla connessione), per Connection credential type (Tipo di credenziali di connessione), scegli User name and password (Nome utente e password).

  4. Nel campo AWS secret (Segreto AWS ), inserisci il nome del tuo segreto. Ad esempio: my-es-secret.

  5. Nella sezione Opzioni di rete, inserisci le VPC informazioni per connetterti al OpenSearch cluster.

  6. Scegli Create connection and activate connector (Crea una connessione e attiva il connettore).

Approfondimenti

Fase 4: Configura un IAM ruolo per il tuo ETL lavoro

Fase 4: Configura un IAM ruolo per il tuo ETL lavoro

Quando create il AWS Glue ETL job, specificate un ruolo AWS Identity and Access Management (IAM) per il job da utilizzare. Il ruolo deve concedere l'accesso a tutte le risorse utilizzate dal processo, incluso Amazon S3 (per qualsiasi origine, destinazione, script, file di driver e directory temporanee) e anche agli oggetti. AWS Glue Data Catalog

Il IAM ruolo assunto per il AWS Glue ETL lavoro deve inoltre avere accesso al segreto creato nella sezione precedente. Per impostazione predefinita, il ruolo AWS gestito AWSGlueServiceRole non ha accesso al segreto. Per impostare il controllo dell'accesso per i tuoi segreti, consulta Autenticazione e controllo degli accessi per AWS Secrets Manager e Limitazione dell'accesso a segreti specifici.

Per configurare un IAM ruolo per il tuo ETL lavoro
  1. Configura le autorizzazioni descritte in Rivedi IAM le autorizzazioni necessarie per i lavori ETL.

  2. Configura le autorizzazioni aggiuntive necessarie quando usi i connettori con AWS Glue Studio, come descritto inAutorizzazioni richieste per l'utilizzo dei connettori.

Approfondimenti

Passaggio 5: Creare un lavoro che utilizzi la connessione OpenSearch

Passaggio 5: Creare un lavoro che utilizzi la connessione OpenSearch

Dopo aver creato un ruolo per il tuo ETL lavoro, puoi creare un lavoro AWS Glue Studio che utilizzi la connessione e il connettore per Open ElasticSearch Spark.

Se il tuo lavoro viene eseguito all'interno di un Amazon Virtual Private Cloud (AmazonVPC), assicurati che VPC sia configurato correttamente. Per ulteriori informazioni, consulta Configurazione di un VPC per il tuo processo ETL.

Per creare un processo che utilizza il connettore Spark Elasticsearch
  1. In AWS Glue Studio, scegli Connettori.

  2. Nell'elenco Your connections (Le tue connessioni), seleziona la connessione appena creata e scegli Create job (Crea processo).

  3. Nell'editor visivo dei processi, scegli il nodo di origine dati. A destra, nella scheda Data source properties - Connector (Proprietà origine dati - Connettore), configura ulteriori informazioni per il connettore.

    1. Scegli Add Schema (Aggiungi schema) e inserisci lo schema del set di dati nell'origine dati. Le connessioni non utilizzano tabelle memorizzate nel Catalogo dati, il che AWS Glue Studio significa che non conosce lo schema dei dati. Devi fornire queste informazioni sullo schema manualmente. Per istruzioni su come utilizzare l'editor dello schema, consulta Modifica dello schema in un nodo di trasformazione personalizzato.

    2. Espandi Connection options (Opzioni di connessione).

    3. Scegli Aggiungi nuova opzione e inserisci le informazioni necessarie per il connettore che non sono state inserite nel AWS segreto:

      • es.nodes: https://< endpoint di OpenSearch dominio>

      • es.port: 443

      • path: test

      • es.nodes.wan.only: true

      Per una spiegazione di queste opzioni di connessione, fai riferimento a: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html.

  4. Aggiungi un nodo di destinazione al grafico.

    La destinazione dati può essere Amazon S3 oppure le informazioni provenienti da un AWS Glue Data Catalog o un connettore possono essere usate per scrivere dati in una posizione diversa. Ad esempio, puoi utilizzare una tabella Data Catalog per scrivere su un database in Amazon RDS oppure puoi usare un connettore come destinazione dei dati per scrivere su archivi di dati che non sono supportati nativamente in AWS Glue.

    Se si sceglie un connettore per la destinazione dati, è necessario scegliere una connessione creata per tale connettore. Inoltre, se richiesto dal provider del connettore, è necessario aggiungere opzioni per fornire ulteriori informazioni al connettore. Se utilizzi una connessione che contiene informazioni relative a un AWS segreto, non è necessario fornire il nome utente e la password di autenticazione nelle opzioni di connessione.

  5. Facoltativamente, aggiungi ulteriori origini dati e uno o più nodi di trasformazione come descritto in Trasforma i dati con trasformazioni AWS Glue gestite.

  6. Configura le proprietà del processo come descritto in Modificare le proprietà del processo, iniziando dalla fase 3, e salva il lavoro.

Approfondimenti

Fase 6: esecuzione del processo

Fase 6: esecuzione del processo

Dopo aver salvato il lavoro, è possibile eseguirlo per eseguire le ETL operazioni.

Per eseguire il lavoro che hai creato per il AWS Glue Connector for Elasticsearch
  1. Utilizzando la AWS Glue Studio console, nella pagina dell'editor visivo, scegli Esegui.

  2. Nel banner che indica l'esito positivo, scegli Run Details (Dettagli esecuzione), oppure puoi scegliere la scheda Runs (Esecuzioni) dell'editor visivo per visualizzare le informazioni sull'esecuzione del processo.