Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione di un metastore esterno per Hive
Per impostazione predefinita, Hive registra le informazioni del metastore in un SQL database My sul file system del nodo primario. Il metastore contiene una descrizione della tabella e dei dati sottostanti su cui è costruita, compresi i nomi delle partizioni, i tipi di dati e così via. Quando un cluster termina, tutti i nodi del cluster vengono chiusi, incluso il nodo primario. Quando ciò accade, i dati locali vengono persi perché i file system dei nodi utilizzano una memorizzazione effimera. Se occorre che il metastore persista, è necessario creare un metastore esterno esistente all'esterno del cluster.
Sono disponibili due opzioni per il metastore esterno:
-
AWS Glue Data Catalog (solo EMR versione Amazon 5.8.0 o successiva).
Per ulteriori informazioni, consulta Utilizzo del AWS Glue Data Catalog come metastore per Hive.
-
Amazon RDS o Amazon Aurora.
Per ulteriori informazioni, consulta Utilizzo di un SQL database My esterno o Amazon Aurora.
Nota
Se usi Hive 3 e riscontri troppe connessioni al metastore di Hive, configura il parametro datanucleus.connectionPool.maxPoolSize
per avere un valore inferiore o aumentare il numero di connessioni che il server di database è in grado di gestire. L'aumento del numero di connessioni è dovuto al modo in cui Hive calcola il numero massimo di connessioni. JDBC Per calcolare il valore ottimale per le prestazioni, consulta Proprietà di configurazione di Hive