Hive の外部メタストアの設定
Hive のメタストア情報の記録先は、デフォルトでは、プライマリノードのファイルシステムにある MySQL データベースです。メタストアには、テーブルとテーブル構築の基となるデータ (パーティション名やデータタイプなど) が含まれています。クラスターが終了すると、プライマリノードも含めて、すべてのクラスターノードがシャットダウンされます。この場合、ノードファイルシステムではエフェメラルストレージが使用されているため、ローカルデータが失われます。メタストアを永続的に保存する場合は、クラスター外に外部メタストアを作成する必要があります。
外部メタストアとして 2 つのオプションがあります。
-
AWS Glue Data Catalog (Amazon EMR リリース 5.8.0 以降のみ)。
詳細については、「Hive のメタストアとしての AWS Glue Data Catalog の使用」を参照してください。
-
Amazon RDS または Amazon Aurora。
詳細については、「外部の MySQL データベースまたは Amazon Aurora の使用」を参照してください。
注記
Hive 3 を使用していて、Hive メタストアへの接続が多すぎる場合は、パラメータ datanucleus.connectionPool.maxPoolSize
の値を小さくするか、データベースサーバーが処理できる接続数を増やします。接続数が増えるのは、Hive が JDBC 接続の最大数を計算する方法によるものです。パフォーマンスの最適な値を計算するには、「Hive Configuration Properties