Amazon EMR 5.33.1 版 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EMR 5.33.1 版

5.33.1 應用程式版本

此版本支援下列應用程式:FlinkGangliaHBaseHCatalogHadoopHiveHudiHueJupyterEnterpriseGatewayJupyterHubLivyMXNetMahoutOoziePhoenixPigPrestoSparkSqoopTensorFlowTezZeppelinZooKeeper

下表列出此 Amazon EMR 版本中提供的應用程式版本,以及前三個 Amazon EMR 版本 (如果適用) 中的應用程式版本。

如需完整了解各 Amazon EMR 版之應用程式版本的完整歷史記錄,請參閱以下主題:

應用程式版本資訊
emr-5.33.1 emr-5.33.0 emr-5.32.1 emr-5.32.0
AWS 適用於 Java 的 SDK 1.11.9701.11.9701.11.8901.11.890
Python 2.7、3.72.7、3.72.7、3.72.7、3.7
Scala 2.11.122.11.122.11.122.11.12
AmazonCloudWatchAgent - - - -
Delta - - - -
Flink1.12.11.12.11.11.21.11.2
Ganglia3.7.23.7.23.7.23.7.2
HBase1.4.131.4.131.4.131.4.13
HCatalog2.3.72.3.72.3.72.3.7
Hadoop2.10.12.10.12.10.12.10.1
Hive2.3.72.3.72.3.72.3.7
Hudi0.7.0-amzn-10.7.0-amzn-10.6.0-amzn-00.6.0-amzn-0
Hue4.9.04.9.04.8.04.8.0
Iceberg - - - -
JupyterEnterpriseGateway2.1.02.1.02.1.02.1.0
JupyterHub1.2.21.2.21.1.01.1.0
Livy0.7.00.7.00.7.00.7.0
MXNet1.7.01.7.01.7.01.7.0
Mahout0.13.00.13.00.13.00.13.0
Oozie5.2.05.2.05.2.05.2.0
Phoenix4.14.34.14.34.14.34.14.3
Pig0.17.00.17.00.17.00.17.0
Presto0.245.10.245.10.240.10.240.1
Spark2.4.72.4.72.4.72.4.7
Sqoop1.4.71.4.71.4.71.4.7
TensorFlow2.4.12.4.12.3.12.3.1
Tez0.9.20.9.20.9.20.9.2
Trino (PrestoSQL) - - - -
Zeppelin0.9.00.9.00.8.20.8.2
ZooKeeper3.4.143.4.143.4.143.4.14

5.33.1 版本備註

以下版本備註包含 Amazon EMR 5.33.0/5.33.1 版的資訊。變更是相對於 5.32.0 版而言。

初始版本日期:2021 年 4 月 19 日

上次更新日期:2021 年 8 月 9 日

升級
  • 升級 Amazon Glue 連接器至版本 1.15.0

  • AWS SDK for Java 已升級至 1.11.970 版

  • 升級 EMRFS 至版本 2.46.0

  • 升級 EMR Goodies 至版本 2.14.0

  • 升級 EMR 記錄伺服器至版本 1.9.0

  • 升級 EMR S3 Dist CP 至版本 2.18.0

  • 升級 EMR 機密代理程式至版本 1.8.0

  • 升級 Flink 至版本 1.12.1

  • 升級 Hadoop 至版本 2.10.1-amzn-1

  • 升級 Hive 至版本 2.3.7-amzn-4

  • 升級 Hudi 至版本 0.7.0

  • 升級 Hue 至版本 4.9.0

  • 升級 OpenCV 至版本 4.5.0

  • 升級 Presto 至版本 0.245.1-amzn-0

  • 升級 R 至版本 4.0.2

  • 升級 Spark 至版本 2.4.7-amzn-1

  • 升級 TensorFlow 至版本 2.4.1

  • 升級 Zeppelin 至版本 0.9.0

變更、強化功能和已解決的問題
  • 此版本修正 Amazon EMR 擴展無法成功縱向擴展/縮減叢集規模或導致應用程式發生故障的問題。

  • 修正當 Amazon EMR 叢集上常駐程式執行運作狀態檢查活動 (例如收集 YARN 節點狀態和 HDFS 節點狀態) 時,對大型、高度使用的叢集發起的擴展請求失敗的問題。發生此問題的原因是,叢集上常駐程式無法將節點的運作狀態資料傳送至內部 Amazon EMR 元件。

  • 改進 EMR 叢集上常駐程式,以便在擴展操作期間為提高可靠性而重複使用 IP 地址時,正確地追蹤節點狀態。

  • SPARK-29683。修正因為 Spark 擔任的所有可用的節點被列入拒絕清單,而導致作業在叢集縮減規模期間失敗的問題。

  • YARN-9011。修正當叢集嘗試縱向擴展或縮減規模時,作業因 YARN 除役中的競爭條件而失敗的問題。

  • 透過確保 Amazon EMR 叢集上常駐程式和 YARN/HDFS 之間的節點狀態始終是一致的,修正叢集擴展期間的步驟或作業失敗問題。

  • 針對使用 Kerberos 身分驗證啟用的 Amazon EMR 叢集,修正某些叢集操作 (例如縮減規模和步驟提交) 失敗的問題。這是因為 Amazon EMR 叢集上的常駐程式未更新 Kerberos 票證,而它對於與主節點上執行的 HDFS/YARN 通訊而言必不可少。

  • 較新的 Amazon EMR 版本修正較舊 Amazon EMR 版本中 AL2 上的「最大開放檔案」限制過低的問題。Amazon EMR 5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 版及更高版本現在包含使用更高「最大開放檔案」設定的永久修正。

  • 設定叢集以修正 Apache YARN 時間軸伺服器版本 1 和 1.5 的效能問題

    Apache YARN 時間軸伺服器版本 1 和 1.5 可能導致極活躍的大型 EMR 叢集出現效能問題,尤其是作為 Amazon EMR 中預設設定的 yarn.resourcemanager.system-metrics-publisher.enabled=true。開放原始碼 YARN 時間軸伺服器版本 2 可解決 YARN 時間軸伺服器可擴展性相關的效能問題。

    此問題的其他解決辦法包括:

    • 設定 yarn-site.xml 中的 yarn.resourcemanager.system-metrics-publisher.enabled=false。

    • 在建立叢集時啟用此問題的修正程式,如下所述。

    下列 Amazon EMR 版本包含對此 YARN 時間軸伺服器效能問題的修正。

    EMR 5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.4.x

    若要在上述任何 Amazon EMR 版本上啟用修正程式,請在使用 aws emr create-cluster 命令參數傳入的組態 JSON 檔案中將這些屬性設為 true--configurations file://./configurations.json。或使用重新設定主控台 UI啟用修正程式。

    configurations.json 檔案內容的範例:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • 當從 Hive 中繼存放區為 Spark 插入查詢擷取分割區位置時,Spark 執行期現在變得更快。

  • 已升級元件版本。如需檢視元件版本清單,請參閱本指南中的關於 Amazon EMR 版本

  • 在每個新叢集上安裝 AWS Java SDK 套件。這是包含全部服務 SDK 及其相依項的單一 jar,而非僅包含個別元件。如需詳細資訊,請參閱 Java SDK 套件相依項

  • 修正舊版 Amazon EMR 中的受管擴展問題並做了改進,讓應用程式失敗率大幅降低。

  • Amazon Linux 儲存庫現預設啟用 HTTPS。若您使用 Amazon S3 VPCE 政策來限制對特定儲存貯體的存取,則必須新增 Amazon Linux 儲存貯體 ARN arn:aws:s3:::amazonlinux-2-repos-$region/* 至您的政策 (使用端點所在區域取代 $region)。如需詳細資訊,請參閱 AWS 討論論壇中的此主題。公告:Amazon Linux 2 現支援在連線至套件儲存庫時使用 HTTPS

新功能
  • Amazon EMR 支援 Amazon S3 Access Points,此 Amazon S3 功能允許您輕易管理對共用資料湖的存取。借助您的 Amazon S3 Access Points 別名,在 Amazon EMR 上大規模存取您的資料變得更簡單。您可以在可使用 Amazon EMR 的所有區域中,使用 Amazon S3 存取點搭配所有版本的 Amazon EMR,無需額外費用。 AWS 如需進一步了解 Amazon S3 Access Points 和 Access Point 別名,請參閱《Amazon S3 使用者指南》中的為您的存取點使用儲存貯體型別名

  • Amazon EMR-5.33 支援新的 Amazon EC2 執行個體類型:c5a、c5ad、c6gn、c6gd、m6gd、d3、d3en、m5zn、r5b、r6gd。請參閱支援的執行個體類型

已知問題
  • 較舊 AL2 上的「最大開放檔案」限制過低 [在新版本中修正]。Amazon EMR 版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 以較舊版本 Amazon Linux 2 (AL2) 為基礎;當使用預設 AMI 建立 Amazon EMR 叢集時,後者的「最大開放檔案」ulimit 設定過低。Amazon EMR 5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 版及更高版本包含使用更高「最大開放檔案」設定的永久修正。提交 Spark 作業時,開放檔限制較低的版本會導致「開放檔案過多」錯誤。在受影響版本中,Amazon EMR 預設 AMI 對「最大開放檔案」有 4096 的預設 ulimit 設定,此設定低於最新 Amazon Linux 2 AMI 中的 65536 檔案限制。當 Spark 驅動程式和執行器嘗試開啟超過 4096 個檔案時,「最大開放檔案」的 ulimit 設定過低會導致 Spark 作業失敗。為了修正該問題,Amazon EMR 提供引導操作 (BA) 指令碼,以便在建立叢集時調整 ulimit 設定。

    若您使用未永久修正此問題的較舊 Amazon EMR 版本,以下解決辦法可讓您將執行個體-控制器 ulimit 明確設定為最大 65536 個檔案。

    從命令列明確設定 ulimit
    1. 編輯 /etc/systemd/system/instance-controller.service 以新增下列參數至「服務」區段。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重新啟動 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引導操作 (BA) 設定 ulimit

    您還可以使用引導操作 (BA) 指令碼,在建立叢集時將執行個體-控制器 ulimit 設定為 65536 個檔案。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 對於 Amazon EMR 6.3.0 和 6.2.0 私有子網路叢集,您不能存取 Ganglia Web UI。您將遇到「存取遭拒 (403)」錯誤。其他 Web UI (例如 Spark、Hue、JupyterHub、Zeppelin、Livy 和 Tez) 將正常運作。Ganglia Web UI 也將正常存取公有子網路叢集。若要解決此問題,請使用 sudo systemctl restart httpd 重新啟動主節點上的 httpd 服務。此問題已在 Amazon EMR 6.4.0 中修正。

  • 重要

    執行 Amazon Linux 或 Amazon Linux 2 Amazon Machine Image (AMI) 的 EMR 叢集會使用預設的 Amazon Linux 行為,而且不會自動下載和安裝需要重新開機的重要和關鍵核心更新。這與執行預設 Amazon Linux AMI 的其他 Amazon EC2 執行個體的行為相同。如果需要重新開機的新 Amazon Linux 軟體更新 (例如核心、NVIDIA 和 CUDA 更新) 在 Amazon EMR 版本發行後可用,則執行預設 AMI 的 EMR 叢集執行個體不會自動下載並安裝這些更新。若要取得核心更新,您可以自訂 Amazon EMR AMI,以使用最新的 Amazon Linux AMI

  • 主控台支援建立安全組態,指定 GovCloud 區域目前不支援 AWS Ranger 整合選項。您可以使用 CLI 建立安全組態。請參閱《Amazon EMR 管理指南》中的建立 EMR 安全組態

  • 範圍受管政策:為符合 AWS 最佳實務,Amazon EMR 已推出 v2 EMR 範圍的預設受管政策,取代即將棄用的政策。請參閱 Amazon EMR 受管政策

  • 當您使用具有 Hive 分割區位置格式設定的 Spark 讀取 Amazon S3 中的資料,而您在 Amazon EMR 版本 5.30.0 至 5.36.0、6.2.0 至 6.9.0 上執行 Spark 時,您可能遇到叢集無法正確讀取資料的問題。如果您的分割區具有以下所有特性,便會發生此種情形:

    • 兩個或更多分割區從同一資料表掃描而來。

    • 至少有一個分割區目錄路徑是其他一或多個分割區目錄路徑的字首,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的字首。

    • 在另一個分割區目錄中,字首後的第一個字元有小於 / 字元 (U+002F) 的 UTF-8 值。例如,s3://bucket/table/p=a b 中 a 和 b 之間有空白字元 (U+0020) 即屬於此類別。請注意還有 14 個其他非控制字元:!"#$%&‘()*+,-。如需詳細資訊,請參閱 UTF-8 編碼表和 Unicode 字元

    若要避免發生此問題,請在 spark-defaults 分類中將 spark.sql.sources.fastS3PartitionDiscovery.enabled 組態設定為 false

5.33.1 元件版本

Amazon EMR 在此版本安裝的元件列出如下。其中有一些屬於大數據應用程式套件。其他的則為 Amazon EMR 獨有,並安裝為系統程序和功能。這些通常會以 emraws 開頭。在最新 Amazon EMR 版本中的大數據應用程式套件,通常也是社群中可找到的最新版本。我們致力盡快提供 Amazon EMR 的社群版本。

Amazon EMR 中的某些元件與社群版本不同。這些元件具有版本標籤,格式為 CommunityVersion-amzn-EmrVersionEmrVersion 從 0 開始。例如,假設有一個名為 myapp-component 的開放原始碼社群元件 2.2 版為了包含在不同 Amazon EMR 發行版本中而修改過三次,則其發行版本會列為 2.2-amzn-2

元件 版本 描述
aws-sagemaker-spark-sdk1.4.1Amazon SageMaker Spark SDK
emr-ddb4.16.0適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。
emr-goodies2.14.0適用 Hadoop 生態系統的超便利程式庫。
emr-kinesis3.5.0適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。
emr-notebook-env1.2.0適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway
emr-s3-dist-cp2.18.0針對 Amazon S3 最佳化的分散式複製應用程式。
emr-s3-select1.6.0EMR S3Select Connector
emrfs2.46.0適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。
flink-client1.12.1Apache Flink 命令列用戶端指令碼和應用程式。
flink-jobmanager-config1.12.1管理 Apache Flink JobManager 的 EMR 節點上的資源。
ganglia-monitor3.7.2Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。
ganglia-metadata-collector3.7.2Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。
ganglia-web3.7.1由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。
hadoop-client2.10.1-amzn-1.1Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。
hadoop-hdfs-datanode2.10.1-amzn-1.1用於存放區塊的 HDFS 節點層級服務。
hadoop-hdfs-library2.10.1-amzn-1.1HDFS 命令列用戶端和程式庫
hadoop-hdfs-namenode2.10.1-amzn-1.1用於追蹤檔案名稱和區塊位置的 HDFS 服務。
hadoop-hdfs-journalnode2.10.1-amzn-1.1HDFS 檔案系統中的 Hadoop 服務,用於管理在 HA 叢集。
hadoop-httpfs-server2.10.1-amzn-1.1HDFS 操作的 HTTP 端點。
hadoop-kms-server2.10.1-amzn-1.1以 Hadoop 金鑰供應商 API 為基礎的加密金鑰管理伺服器。
hadoop-mapred2.10.1-amzn-1.1執行 MapReduce 應用程式的 MapReduce 執行引擎程式庫。
hadoop-yarn-nodemanager2.10.1-amzn-1.1在個別節點用於管理容器的 YARN 服務。
hadoop-yarn-resourcemanager2.10.1-amzn-1.1用於分配和管理叢集資源,以及分散式應用程式的 YARN 服務。
hadoop-yarn-timeline-server2.10.1-amzn-1.1為 YARN 應用程式擷取目前和歷史資訊的服務。
hbase-hmaster1.4.13負責區域協調和執行管理命令的 HBase 叢集服務。
hbase-region-server1.4.13提供一或多個 HBase 區域的服務。
hbase-client1.4.13HBase 命令列用戶端。
hbase-rest-server1.4.13為 HBase 提供 RESTful HTTP 端點的服務。
hbase-thrift-server1.4.13提供 Thrift 端點到 HBase 的服務。
hcatalog-client2.3.7-amzn-4操作 hcatalog-server 的「hcat」命令列用戶端。
hcatalog-server2.3.7-amzn-4服務為分散式應用程式提供 HCatalog、表格和儲存管理層。
hcatalog-webhcat-server2.3.7-amzn-4HTTP 端點提供了 REST 介面至 HCatalog。
hive-client2.3.7-amzn-4Hive 命令列用戶端。
hive-hbase2.3.7-amzn-4Hive-hbase 用戶端。
hive-metastore-server2.3.7-amzn-4為 Hadoop 操作的 SQL 提供存取 Hive 中繼儲存、存放中繼資料語意儲存庫的服務。
hive-server22.3.7-amzn-4依 Web 請求接受 Hive 查詢的服務。
hudi0.7.0-amzn-1增量處理架構,以低延遲和高效率強化資料管道。
hudi-spark0.7.0-amzn-1用於使用 Hudi 執行 Spark 的套件程式庫。
hudi-presto0.7.0-amzn-1用於使用 Hudi 執行 Presto 的套件程式庫。
hue-server4.9.0使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式
jupyterhub1.2.2適用於 Jupyter 筆記本的多使用者伺服器
livy-server0.7.0-incubating與 Apache Spark 互動的 REST 介面
nginx1.12.1nginx [engine x] 是 HTTP 和反向代理伺服器
mahout-client0.13.0機器學習程式庫。
mxnet1.7.0靈活有效率的程式庫,具可擴展性,適用於深度學習。
mariadb-server5.5.68+MySQL 資料庫伺服器。
nvidia-cuda10.1.243Nvidia 驅動程式和 Cuda 工具組
oozie-client5.2.0Oozie 命令列用戶端。
oozie-server5.2.0接受 Oozie 工作流程要求的服務。
opencv4.5.0開放原始碼電腦 Vision 程式庫。
phoenix-library4.14.3-HBase-1.4適用於伺服器和用戶端的 phoenix 程式庫
phoenix-query-server4.14.3-HBase-1.4此為一輕量伺服器,可提供對 Avatica API 的 JDBC 存取以及通訊協定緩衝區和 JSON 格式存取
presto-coordinator0.245.1-amzn-0在 presto-workers 之間接受查詢和執行管理查詢的服務。
presto-worker0.245.1-amzn-0執行查詢各部分的服務。
presto-client0.245.1-amzn-0安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。
pig-client0.17.0Pig 命令列用戶端。
r4.0.2統計運算 R 專案
ranger-kms-server1.2.0Apache Ranger Key Management System
spark-client2.4.7-amzn-1.1Spark 命令列用戶端。
spark-history-server2.4.7-amzn-1.1用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。
spark-on-yarn2.4.7-amzn-1.1適用於 YARN 的記憶體內執行引擎。
spark-yarn-slave2.4.7-amzn-1.1YARN 從屬所需的 Apache Spark 程式庫。
sqoop-client1.4.7Apache Sqoop 命令列用戶端。
tensorflow2.4.1適用於高效能數值運算的 TensorFlow 開放原始碼軟體程式庫。
tez-on-yarn0.9.2tez YARN 應用程式和程式庫。
webserver2.4.25+Apache HTTP 伺服器。
zeppelin-server0.9.0能進行互動式資料分析,以 Web 為基礎的筆記型電腦。
zookeeper-server3.4.14用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。
zookeeper-client3.4.14ZooKeeper 命令列用戶端。

5.33.1 組態類別

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案,例如 hive-site.xml。如需詳細資訊,請參閱設定應用程式

當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR 只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組

emr-5.33.1 分類
分類 描述 重新設定動作

capacity-scheduler

變更 Hadoop 中 capacity-scheduler.xml 檔案的值。

Restarts the ResourceManager service.

container-executor

在 Hadoop YARN 的 container-executor.cfg 檔案中變更值。

Not available.

container-log4j

變更 Hadoop YARN 的 container-log4j.properties 檔案中的值。

Not available.

core-site

變更 Hadoop 中 core-site.xml 檔案的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

變更 Docker 相關設定。

Not available.

emrfs-site

變更 EMRFS 設定。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer.

flink-conf

變更 flink-conf.yaml 設定。

Restarts Flink history server.

flink-log4j

變更 Flink log4j.properties 設定。

Restarts Flink history server.

flink-log4j-session

變更 Kubernetes/Yarn 工作階段的 Flink log4j-session.properties 設定。

Not available.

flink-log4j-cli

變更 Flink log4j-cli.properties 設定。

Restarts Flink history server.

hadoop-env

在 Hadoop 環境中變更所有 Hadoop 元件的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer.

hadoop-log4j

變更 Hadoop 中 log4j.properties 檔案的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

變更 hadoop ssl 伺服器組態

Not available.

hadoop-ssl-client

變更 hadoop ssl 用戶端組態

Not available.

hbase

Apache HBase 的 Amazon EMR 彙整設定。

Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts.

hbase-env

變更 HBase 環境中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-log4j

變更 HBase 的 hbase-log4j.properties 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-metrics

變更 HBase 的 hadoop-metrics2-hbase.properties 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer.

hbase-policy

變更 HBase 的 hbase-policy.xml 檔案中的值。

Not available.

hbase-site

變更 HBase 的 hbase-site.xml 檔案中的值。

Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer.

hdfs-encryption-zones

設定 HDFS 加密區域。

Should not be reconfigured.

hdfs-site

變更 HDFS 的 hdfs-site.xml 中的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

hcatalog-env

變更 HCatalog 環境中的值。

Restarts Hive HCatalog Server.

hcatalog-server-jndi

變更 HCatalog 的 jndi.properties 中的值。

Restarts Hive HCatalog Server.

hcatalog-server-proto-hive-site

變更 HCatalog 的 proto-hive-site.xml 中的值。

Restarts Hive HCatalog Server.

hcatalog-webhcat-env

變更 HCatalog WebHCat 環境中的值。

Restarts Hive WebHCat Server.

hcatalog-webhcat-log4j2

變更 HCatalog WebHCat 的 log4j2.properties 中的值。

Restarts Hive WebHCat Server.

hcatalog-webhcat-site

變更 HCatalog WebHCat 的 webhcat-site.xml 檔案中的值。

Restarts Hive WebHCat Server.

hive-beeline-log4j2

變更 Hive 的 beeline-log4j2.properties 檔案中的值。

Not available.

hive-parquet-logging

變更 Hive 的 parquet-logging.properties 檔案中的值。

Not available.

hive-env

變更 Hive 環境中的值。

Restarts HiveServer2 and HiveMetastore. Runs Hive schemaTool CLI commands to verify hive-metastore.

hive-exec-log4j2

變更 Hive 的 hive-exec-log4j2.properties 檔案中的值。

Restarts HiveServer2 and HiveMetastore.

hive-llap-daemon-log4j2

變更 Hive 的 llap-daemon-log4j2.properties 檔案中的值。

Not available.

hive-log4j2

變更 Hive 的 hive-log4j2.properties 檔案中的值。

Not available.

hive-site

變更 Hive 的 hive-site.xml 檔案中的值

Restarts HiveServer2 and HiveMetastore. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin.

hiveserver2-site

變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值

Not available.

hue-ini

變更 Hue 的 ini 檔案中的值

Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations.

httpfs-env

變更 HTTPFS 環境中的值。

Restarts Hadoop Httpfs service.

httpfs-site

變更 Hadoop 中 httpfs-site.xml 檔案的值。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

變更 Hadoop 中 kms-acls.xml 檔案的值。

Not available.

hadoop-kms-env

變更 Hadoop KMS 環境中的值。

Restarts Hadoop-KMS service.

hadoop-kms-log4j

變更 Hadoop 的 kms-log4j.properties 檔案中的值。

Not available.

hadoop-kms-site

變更 Hadoop 中 kms-site.xml 檔案的值。

Restarts Hadoop-KMS and Ranger-KMS service.

hudi-env

變更 Hudi 環境中的值。

Not available.

jupyter-notebook-conf

變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。

Not available.

jupyter-hub-conf

變更 JupyterHubs 中 jupyterhub_config.py 檔案的值。

Not available.

jupyter-s3-conf

設定 Jupyter 筆記本 S3 持久性。

Not available.

jupyter-sparkmagic-conf

變更 Sparkmagic 中 config.json 檔案的值。

Not available.

livy-conf

變更 Livy 的 livy.conf 檔案中的值。

Restarts Livy Server.

livy-env

變更 Livy 環境中的值。

Restarts Livy Server.

livy-log4j

變更 Livy log4j.properties 設定。

Restarts Livy Server.

mapred-env

變更 MapReduce 應用程式環境中的值。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。

Restarts Hadoop MapReduce-HistoryServer.

oozie-env

變更 Oozie 環境中的值。

Restarts Oozie.

oozie-log4j

變更 Oozie 的 oozie-log4j.properties 檔案中的值。

Restarts Oozie.

oozie-site

變更 Oozie 的 oozie-site.xml 檔案中的值。

Restarts Oozie.

phoenix-hbase-metrics

變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。

Not available.

phoenix-hbase-site

變更 Phoenix 的 hbase-site.xml 檔案中的值。

Not available.

phoenix-log4j

變更 Phoenix 中 log4j.properties 檔案的值。

Restarts Phoenix-QueryServer.

phoenix-metrics

變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。

Not available.

pig-env

在 Pig 環境中變更值。

Not available.

pig-properties

變更 Pig 的 pig.properties 檔案中的值。

Restarts Oozie.

pig-log4j

變更 Pig 的 log4j.properties 檔案中的值。

Not available.

presto-log

變更 Presto 的 log.properties 檔案中的值。

Restarts Presto-Server.

presto-config

變更 Presto 的 config.properties 檔案中的值。

Restarts Presto-Server.

presto-password-authenticator

變更 Presto 的 password-authenticator.properties 檔案中的值。

Not available.

presto-env

變更 Presto 的 presto-env.sh 檔案中的值。

Restarts Presto-Server.

presto-node

變更 Presto 的 node.properties 檔案中的值。

Not available.

presto-connector-blackhole

變更 Presto 的 blackhole.properties 檔案中的值。

Not available.

presto-connector-cassandra

變更 Presto 的 cassandra.properties 檔案中的值。

Not available.

presto-connector-hive

變更 Presto 的 hive.properties 檔案中的值。

Restarts Presto-Server.

presto-connector-jmx

變更 Presto 的 jmx.properties 檔案中的值。

Not available.

presto-connector-kafka

變更 Presto 的 kafka.properties 檔案中的值。

Not available.

presto-connector-localfile

變更 Presto 的 localfile.properties 檔案中的值。

Not available.

presto-connector-memory

變更 Presto 的 memory.properties 檔案中的值。

Not available.

presto-connector-mongodb

變更 Presto 的 mongodb.properties 檔案中的值。

Not available.

presto-connector-mysql

變更 Presto 的 mysql.properties 檔案中的值。

Not available.

presto-connector-postgresql

變更 Presto 的 postgresql.properties 檔案中的值。

Not available.

presto-connector-raptor

變更 Presto 的 raptor.properties 檔案中的值。

Not available.

presto-connector-redis

變更 Presto 的 redis.properties 檔案中的值。

Not available.

presto-connector-redshift

變更 Presto 的 redshift.properties 檔案中的值。

Not available.

presto-connector-tpch

變更 Presto 的 tpch.properties 檔案中的值。

Not available.

presto-connector-tpcds

變更 Presto 的 tpcds.properties 檔案中的值。

Not available.

ranger-kms-dbks-site

變更 Ranger KMS 之 dbks-site.xml 檔案中的值。

Restarts Ranger KMS Server.

ranger-kms-site

變更 Ranger KMS 之 ranger-kms-site.xml 檔案中的值。

Restarts Ranger KMS Server.

ranger-kms-env

變更 Ranger KMS 環境中的值。

Restarts Ranger KMS Server.

ranger-kms-log4j

變更 Ranger KMS 之 kms-log4j.properties 檔案中的值。

Not available.

ranger-kms-db-ca

變更 S3 上 CA 檔案的值,以使用 Ranger KMS 進行 MySQL SSL 連線。

Not available.

recordserver-env

變更 EMR RecordServer 環境中的值。

Restarts EMR record server.

recordserver-conf

變更 EMR RecordServer 的 erver.properties 檔案中的值。

Restarts EMR record server.

recordserver-log4j

變更 EMR RecordServer 的 log4j.properties 檔案中的值。

Restarts EMR record server.

spark

Apache Spark 的 Amazon EMR 彙整設定。

This property modifies spark-defaults. See actions there.

spark-defaults

變更 Spark 的 spark-defaults.conf 檔案中的值。

Restarts Spark history server and Spark thrift server.

spark-env

變更 Spark 環境中的值。

Restarts Spark history server and Spark thrift server.

spark-hive-site

變更 Spark 的 hive-site.xml 檔案中的值

Not available.

spark-log4j

變更 Spark 中 log4j.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

spark-metrics

變更 Spark 中 metrics.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

sqoop-env

變更 Sqoop 環境中的值。

Not available.

sqoop-oraoop-site

變更 Sqoop OraOop 的 oraoop-site.xml 檔案中的值。

Not available.

sqoop-site

變更 Sqoop 的 sqoop-site.xml 檔案中的值。

Not available.

tez-site

變更 Tez 的 tez-site.xml 檔案中的值。

Restarts Oozie.

yarn-env

變更 YARN 環境中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

變更 YARN 的 yarn-site.xml 檔案中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zeppelin-env

變更 Zeppelin 環境中的值。

Restarts Zeppelin.

zeppelin-site

變更 zeppelin-site.xml 中的組態設定。

Restarts Zeppelin.

zookeeper-config

變更 ZooKeeper 的 zoo.cfg 檔案中的值。

Restarts Zookeeper server.

zookeeper-log4j

變更 ZooKeeper 中 log4j.properties 檔案的值。

Restarts Zookeeper server.