Connect Athena a un metastore Apache Hive - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connect Athena a un metastore Apache Hive

Per connettere Athena a un metastore Apache Hive, devi creare e configurare una funzione Lambda. Per un'implementazione di base, puoi eseguire tutte le fasi richieste a partire dalla console di gestione Athena.

Nota

La procedura seguente richiede l'autorizzazione per creare un IAM ruolo personalizzato per la funzione Lambda. Se non disponi dell'autorizzazione per creare un ruolo personalizzato, puoi utilizzare l'implementazione di riferimento Athena per creare una funzione Lambda separatamente, quindi utilizzare la AWS Lambda console per scegliere un IAM ruolo esistente per la funzione. Per ulteriori informazioni, consulta Connect Athena a un metastore Hive utilizzando un ruolo di esecuzione esistente IAM.

Per connettere Athena a un metastore Hive
  1. Apri la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

  2. Se il pannello di navigazione della console non è visibile, scegli il menu di espansione a sinistra.

    Scegli il menu di espansione.
  3. Scegli Data sources (Origini dati).

  4. Nell'angolo in alto a destra della console, scegli Create data source (Crea origine dati).

  5. Nella pagina Choose a data source (Scegli un'origine dati), per Data source (Origini dati), scegli S3 - Apache Hive metastore (Metastore Apache Hive - S3).

  6. Scegli Next (Successivo).

  7. Nella sezione Dettagli dell'origine dati, per Nome dell'origine dati, inserisci il nome che desideri utilizzare nelle tue SQL dichiarazioni quando esegui una query sull'origine dati di Athena. Il nome può contenere fino a 127 caratteri e deve essere univoco all'interno dell'account. Non può essere modificato dopo la creazione. I caratteri validi sono a-z, A-z, 0-9, _ (trattino basso), @ (chiocciola) e - (trattino). I nomi awsdatacatalog, hive, jmx e system sono riservati ad Athena e non possono essere utilizzati per i nomi delle origini dati.

  8. Per la funzione Lambda, scegli Crea funzione Lambda, quindi scegli Crea una nuova funzione Lambda in AWS Lambda

    La AthenaHiveMetastoreFunctionpagina si apre nella console. AWS Lambda La pagina include informazioni dettagliate sul connettore.

    La AthenaHiveMetastoreFunctionpagina nella AWS Lambda console.
  9. Sotto Impostazioni applicazioni inserisci i parametri per la funzione Lambda.

    • LambdaFuncName— Fornire un nome per la funzione. Ad esempio, myHiveMetastore.

    • SpillLocation— Specificare una posizione Amazon S3 in questo account per conservare i metadati di spillover se la dimensione della risposta della funzione Lambda supera i 4 MB.

    • HMSUris— Inserisci il nome URI del tuo host metastore Hive che utilizza il protocollo Thrift sulla porta 9083. Utilizzo della sintassi thrift://<host_name>:9083.

    • LambdaMemory— Specificare un valore compreso tra 128 MB e 3008 MB. Alla funzione Lambda vengono assegnati CPU cicli proporzionali alla quantità di memoria configurata. Il valore di default è 1024.

    • LambdaTimeout— Specificare il tempo di esecuzione della chiamata Lambda massimo consentito in secondi da 1 a 900 (900 secondi corrispondono a 15 minuti). Il valore predefinito è 300 secondi (5 minuti).

    • VPCSecurityGroupIds— Immettere un elenco separato da virgole di gruppi di sicurezza per il metastore Hive. VPC IDs

    • VPCSubnetIds— Immettere un elenco di sottoreti separate da virgole per il metastore Hive. VPC IDs

  10. Seleziona Riconosco che questa app crea ruoli personalizzati IAM, quindi scegli Distribuisci.

    Distribuzione dell'app per la funzione Lambda dalla console AWS Lambda .

    Al termine della distribuzione, la funzione viene visualizzata nell'elenco delle applicazioni Lambda. Ora che la funzione metastore Hive è stata distribuita sul tuo account, puoi configurare Athena per usarla.

  11. Torna alla pagina Enter data source details (Inserisci i dettagli dell'origine dati) nella console Athena.

  12. Nella sezione Lambda function (Funzione Lambda), scegli l'icona di aggiornamento accanto alla casella di ricerca della funzione Lambda. L'aggiornamento dell'elenco delle funzioni disponibili fa sì che la funzione appena creata venga visualizzata nell'elenco.

  13. Scegli il nome della funzione appena creata nella console Lambda. Viene ARN visualizzata la funzione Lambda.

  14. (Facoltativo) Per Tags (Tag), aggiungi coppie chiave-valore da associare a questa origine dati. Per ulteriori informazioni sui tag, consulta Tag: risorse Athena.

  15. Scegli Next (Successivo).

  16. Nella pagina Review and create (Rivedi e crea), esamina i dettagli dell'origine dati, quindi scegli Create data source (Crea origine dati).

  17. La sezione Data source details (Dettagli sull'origine dati) della pagina dell'origine dati mostra le informazioni relative al nuovo connettore.

    Ora puoi utilizzare il nome dell'origine dati che hai specificato per fare riferimento al metastore Hive nelle tue SQL query in Athena. Nelle SQL query, utilizzate la sintassi di esempio seguente, sostituendola hms-catalog-1 con il nome del catalogo specificato in precedenza.

    SELECT * FROM hms-catalog-1.CustomerData.customers
  18. Per informazioni sulla visualizzazione, la modifica o l'eliminazione delle origini dati create, consulta Gestisci le tue fonti di dati.