本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon 6.2.0 EMR版
6.2.0 應用程式版本
此版本支援下列應用程式: Flink
下表列出此版本 Amazon 中可用的應用程式版本,EMR以及前三個 Amazon EMR版本 (如適用) 中的應用程式版本。
如需每個 Amazon 版本應用程式版本的完整歷史記錄EMR,請參閱下列主題:
emr-6.2.0 | emr-6.1.1 | emr-6.1.0 | emr-6.0.1 | |
---|---|---|---|---|
AWS SDK 適用於 Java | 1.11.880 | 1.11.828 | 1.11.828 | 1.11.711 |
Python | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 | 2.7、3.7 |
Scala | 2.12.10 | 2.12.10 | 2.12.10 | 2.12.10 |
AmazonCloudWatchAgent | - | - | - | - |
Delta | - | - | - | - |
Flink | 1.11.2 | 1.11.0 | 1.11.0 | - |
Ganglia | 3.7.2 | 3.7.2 | 3.7.2 | 3.7.2 |
HBase | 2.2.6-amzn-0 | 2.2.5 | 2.2.5 | 2.2.3 |
HCatalog | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hadoop | 3.2.1 | 3.2.1 | 3.2.1 | 3.2.1 |
Hive | 3.1.2 | 3.1.2 | 3.1.2 | 3.1.2 |
Hudi | 0.6.0-amzn-1 | 0.5.2-incubating-amzn-2 | 0.5.2-incubating-amzn-2 | 0.5.0-incubating-amzn-1 |
Hue | 4.8.0 | 4.7.1 | 4.7.1 | 4.4.0 |
Iceberg | - | - | - | - |
JupyterEnterpriseGateway | 2.1.0 | - | - | - |
JupyterHub | 1.1.0 | 1.1.0 | 1.1.0 | 1.0.0 |
Livy | 0.7.0 | 0.7.0 | 0.7.0 | 0.6.0 |
MXNet | 1.7.0 | 1.6.0 | 1.6.0 | 1.5.1 |
Mahout | - | - | - | - |
Oozie | 5.2.0 | 5.2.0 | 5.2.0 | 5.1.0 |
Phoenix | 5.0.0 | 5.0.0 | 5.0.0 | 5.0.0 |
Pig | 0.17.0 | 0.17.0 | 0.17.0 | - |
Presto | 0.238.3 | 0.232 | 0.232 | 0.230 |
Spark | 3.0.1 | 3.0.0 | 3.0.0 | 2.4.4 |
Sqoop | 1.4.7 | 1.4.7 | 1.4.7 | - |
TensorFlow | 2.3.1 | 2.1.0 | 2.1.0 | 1.14.0 |
Tez | 0.9.2 | 0.9.2 | 0.9.2 | 0.9.2 |
Trino (Presto SQL) | 343 | 338 | 338 | - |
Zeppelin | 0.9.0 | 0.9.0 | 0.9.0 | 0.9.0 |
ZooKeeper | 3.4.14 | 3.4.14 | 3.4.14 | 3.4.14 |
6.2.0 版本備註
下列版本備註包含 Amazon 6.2.0 EMR版的資訊。變更是相對於 6.1.0 版而言。
初始版本日期:2020 年 12 月 9 日
上次更新日期:2021 年 10 月 4 日
支援的應用程式
AWS SDK for Java 1.11.828 版
emr-record-server 1.7.0 版
Flink 版本 1.11.2
Ganglia 3.7.2 版
Hadoop 版本 3.2.1-amzn-1
HBase 2.2.6-amzn-0 版
HBase-operator-tools 1.0.0
HCatalog 3.1.2-amzn-0 版
Hive 版本 3.1.2-amzn-3
Hudi 版本 0.6.0-amzn-1
Hue 版本 4.8.0
JupyterHub 1.1.0 版
Livy 版本 0.7.0
MXNet 1.7.0 版
Oozie 版本 5.2.0
Phoenix 5.0.0 版
Pig 版本 0.17.0
Presto 版本 0.238.3-amzn-1
PrestoSQL 343 版
Spark 版本 3.0.1-amzn-0
spark-rapids 0.2.0
TensorFlow 2.3.1 版
Zeppelin 版本 0.9.0-preview1
Zookeeper 3.4.14 版
連接器與驅動程式:DynamoDB 連接器 4.16.0
新功能
HBase:移除遞交階段的重新命名並新增持久性HFile追蹤。請參閱 Amazon EMR版本指南 中的持續HFile追蹤。
HBase:Backported 建立強制在壓縮 上快取區塊的組態
。 PrestoDB:改進動態分割區剔除。規則型聯結重新排序適用於未分割資料。
範圍受管政策:為符合 AWS 最佳實務,Amazon EMR已推出 v2 EMR範圍的預設受管政策,取代即將取代的政策。請參閱 Amazon EMR Managed Policy 。
Instance Metadata Service (IMDS) V2 支援狀態:對於 Amazon EMR 6.2 或更新版本,Amazon EMR元件IMDSv2會用於所有IMDS呼叫。對於應用程式程式碼中的IMDS呼叫,您可以使用 IMDSv1和 IMDSv2,或IMDS將 設定為僅用於IMDSv2提高安全性。如果您在舊版 Amazon EMR 6.x IMDSv1中停用 ,會導致叢集啟動失敗。
變更、強化功能和已解決的問題
-
這是一個版本,用於修正 Amazon EMR Scaling 無法成功擴展叢集或導致應用程式失敗的問題。
已修正當 Amazon 叢集EMR上常駐程式正在執行運作運作狀態檢查活動時,大型、高度使用叢集的擴展請求失敗的問題,例如收集YARN節點狀態和HDFS節點狀態。發生這種情況是因為叢集上的精靈無法將節點的運作狀態資料傳遞給內部 Amazon EMR元件。
改善叢集EMR內精靈,以便在重複使用 IP 地址時正確追蹤節點狀態,以提高擴展操作期間的可靠性。
SPARK-29683
。修正因為 Spark 擔任的所有可用的節點被列入拒絕清單,而導致作業在叢集縮減規模期間失敗的問題。 YARN-9011
。已修正叢集嘗試擴展或縮減規模時,由於YARN停用競爭條件而導致任務失敗的問題。 透過確保 Amazon 叢集EMR上常駐程式和 YARN/ 之間的節點狀態始終一致,修正叢集擴展期間的步驟或任務失敗問題HDFS。
已修正使用 Kerberos 身分驗證啟用之 Amazon EMR叢集的叢集操作,例如縮減規模和提交步驟失敗的問題。這是因為 Amazon 叢集EMR上常駐程式未更新 Kerberos 票證,這是與主節點上安全通訊HDFS/YARN執行的必要條件。
較新的 Amazon EMR版本會修正 Amazon AL2中較舊版本「開啟檔案上限」限制的問題EMR。Amazon EMR5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 及更新版本現在包含具有更高「最大開啟檔案」設定的永久修正。
Spark:Spark 執行期中的效能改進。
已知問題
Amazon EMR 6.2 在 the /etc/cron.d/libinstance-controller-java file in EMR 6.2.0. Permissions on the file are 645 (-rw-r--r-x), when they should be 644 (-rw-r--r--). As a result, Amazon EMR version 6.2 does not log instance-state logs, and the /emr/instance-logs 目錄上設定了不正確的許可,但為空。此問題已在 Amazon EMR 6.3.0 及更新版本中修正。
若要解決此問題,請在叢集啟動時執行以下指令碼作為引導操作。
#!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
對於 Amazon EMR 6.2.0 和 6.3.0 私有子網路叢集,您無法存取 Ganglia Web UI。您將遇到「存取遭拒 (403)」錯誤。其他 Web UIs,例如 Spark、Hue JupyterHub、Zeppelin、Livy 和 Tez 正常運作。Ganglia Web UI 也將正常存取公有子網路叢集。若要解決此問題,請使用
sudo systemctl restart httpd
重新啟動主節點上的 httpd 服務。此問題已在 Amazon 6.4.0 EMR 中修正。Amazon EMR 6.2.0 中存在 httpd 持續失敗的問題,導致 Ganglia 無法使用。您會遇到「無法連線至伺服器」的錯誤。若要修正已執行此問題的叢集,請將 行SSH新增至叢集主節點
Listen 80
,並將該行新增至httpd.conf
位於 的檔案/etc/httpd/conf/httpd.conf
。此問題已在 Amazon EMR 6.3.0 中修正。HTTPD 當您使用安全組態時,EMR6.2.0 叢集會失敗。這會使 Ganglia Web 應用程式使用者界面變得不可使用。若要存取 Ganglia Web 應用程式使用者界面,請在叢集的主節點上將
Listen 80
新增至/etc/httpd/conf/httpd.conf
檔案。如需有關連線至叢集的資訊,請參閱使用 連線至主要節點SSH。EMR 當您使用安全組態時,筆記本也無法與 EMR 6.2.0 叢集建立連線。筆記本將無法列出核心於提交 Spark 作業。我們建議您EMR改為將EMR筆記本與另一個版本的 Amazon 搭配使用。
-
較舊版本 AL2【修正為較新版本】 的「開啟檔案上限」下限。Amazon EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 是以 ofAmazon Linux 2 (AL2) 的較舊版本為基礎,當 Amazon EMR叢集使用預設 建立時,其「最大開啟檔案」的 ulimit 設定較低。 AMIAmazon EMR5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0 及更新版本包含具有較高「最大開啟檔案」設定的永久修正。提交 Spark 作業時,開放檔限制較低的版本會導致「開放檔案過多」錯誤。在受影響的版本中,Amazon EMR 預設AMI的預設 ulimit 設定為 4096,表示「開啟的檔案上限」低於 latestAmazon Linux 2 中的 65536 檔案限制AMI。當 Spark 驅動程式和執行器嘗試開啟超過 4096 個檔案時,「最大開放檔案」的 ulimit 設定過低會導致 Spark 作業失敗。若要修正此問題,Amazon EMR有一個引導動作 (BA) 指令碼,可在叢集建立時調整 ulimit 設定。
如果您使用的是沒有此問題永久修正的舊 Amazon EMR版本,則下列解決方法可讓您明確將執行個體控制器的模擬值設定為最多 65536 個檔案。
從命令列明確設定 ulimit
編輯
/etc/systemd/system/instance-controller.service
以新增下列參數至「服務」區段。LimitNOFILE=65536
LimitNPROC=65536
重新啟動 InstanceController
$ sudo systemctl daemon-reload
$ sudo systemctl restart instance-controller
使用引導操作 (BA) 設定 ulimit
您還可以使用引導操作 (BA) 指令碼,在建立叢集時將執行個體-控制器 ulimit 設定為 65536 個檔案。
#!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
重要
Amazon EMR 6.1.0 和 6.2.0 包含可能嚴重影響所有 Hudi 插入、upsert 和刪除操作的效能問題。如果您計劃將 Hudi 與 Amazon EMR 6.1.0 或 6.2RPM.0 搭配使用,您應該聯絡 AWS 支援以取得修補的 Hudi。
-
重要
EMR 執行 Amazon Linux 或 Amazon Linux 2 Amazon Machine Images (AMIs) 的 叢集會使用預設的 Amazon Linux 行為,而且不會自動下載和安裝需要重新啟動的重要和關鍵核心更新。這與執行預設 Amazon Linux 的其他 Amazon EC2執行個體的行為相同AMI。如果在 Amazon EMR版本可供使用之後,需要重新啟動的新 Amazon Linux 軟體更新 (例如核心NVIDIA、 和CUDA更新) 變成可用,則執行預設值的EMR叢集執行個體AMI不會自動下載和安裝這些更新。若要取得核心更新,您可以自訂您的 AmazonEMRAMI,以使用最新的 Amazon Linux AMI。
Amazon EMR 6.2.0 Maven 成品未發佈。它們將與未來的 Amazon 版本一起發佈EMR。
使用 HBase Storefile 系統資料表的持續HFile追蹤不支援HBase區域複寫功能。如需HBase區域複寫的詳細資訊,請參閱時間軸一致性高可用讀取
。 Amazon EMR 6.x 和 EMR 5.x Hive 儲存貯體版本差異
EMR 5.x 使用 OOS Apache Hive 2,而 6.x EMR 使用 OOS Apache Hive 3。開放原始碼 Hive2 使用儲存貯體劃分版本 1,而開放原始碼 Hive3 使用儲存貯體劃分版本 2。Hive 2 (EMR 5.x) 和 Hive 3 (EMR 6.x) 之間的儲存貯體版本差異表示 Hive 儲存貯體雜湊功能不同。請參閱以下範例。
下表是分別在 6.x EMR 和 5.x EMR 中建立的範例。
-- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';
在 6.x EMR 和 5.x EMR 中插入相同的資料。
INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');
檢查 S3 位置,顯示儲存貯體檔案名稱不同,因為雜湊函數在 EMR 6.x (Hive 3) 和 5.x EMR (Hive 2) 之間不同。
[hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0
您也可以在 6.x CLI的 Hive EMR 中執行下列命令來查看版本差異。請注意,它會傳回儲存貯體劃分版本 2。
hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
-
使用多個主節點和 Kerberos 身分驗證的叢集中存在的已知問題
如果您在 Amazon 5.20.0 版及更新EMR版本中執行具有多個主節點的叢集和 Kerberos 身分驗證,則可能會在叢集執行一段時間後遇到叢集操作的問題,例如縮減規模或提交步驟。時段取決於您定義的 Kerberos 票證有效期。規模調減問題會同時影響自動縮減規模和您提交的明確縮減規模請求。其他叢集操作也可能受影響。
解決方法:
-
SSH 作為具有多個主要節點之EMR叢集的主要節點
hadoop
的使用者。 -
執行以下命令,以更新
hadoop
使用者的 Kerberos 票證。kinit -kt <keytab_file> <principal>
一般而言,Keytab 檔案位於
/etc/hadoop.keytab
,而主體則採用hadoop/<hostname>@<REALM>
的形式。
注意
此解決辦法的有效期間和 Kerberos 票證的有效期間相同。此持續時間預設為 10 個小時,但可以透過您的 Kerberos 設定進行變更。若 Kerberos 票證過期,您必須重新執行上述命令。
-
當您使用 Spark 搭配 Hive 分割區位置格式來讀取 Amazon S3 中的資料時,並在 Amazon EMR版本 5.30.0 至 5.36.0,以及 6.2.0 至 6.9.0 上執行 Spark 時,您可能會遇到問題,導致叢集無法正確讀取資料。如果您的分割區具有以下所有特性,便會發生此種情形:
-
兩個或更多分割區從同一資料表掃描而來。
-
至少有一個分割區目錄路徑是其他一或多個分割區目錄路徑的字首,例如,
s3://bucket/table/p=a
是s3://bucket/table/p=a b
的字首。 -
另一個分割區目錄中字首後面的第一個字元具有小於
/
字元 (U+002F) 的 UTF-8 值。例如,s3://bucket/table/p=a b
中 a 和 b 之間有空白字元 (U+0020) 即屬於此類別。請注意還有 14 個其他非控制字元:!"#$%&‘()*+,-
。如需詳細資訊,請參閱 UTF-8 編碼資料表和 Unicode 字元。
若要避免發生此問題,請在
spark-defaults
分類中將spark.sql.sources.fastS3PartitionDiscovery.enabled
組態設定為false
。-
6.2.0 元件版本
Amazon 使用此版本EMR安裝的元件如下所列。其中有一些屬於大數據應用程式套件。其他則對 Amazon 而言是獨一無二的EMR,並針對系統程序和功能進行安裝。這些通常會以 emr
或 aws
開頭。Amazon EMR最新版本中的大數據應用程式套件通常是社群中發現的最新版本。我們會EMR盡快在 Amazon 中提供社群版本。
Amazon 中的某些元件與社群版本EMR不同。這些元件具有版本標籤,格式為
。CommunityVersion
-amzn-EmrVersion
從 0 開始。例如,如果使用 2.2 版命名EmrVersion
myapp-component
的開放原始碼社群元件已修改三次,以包含在不同的 Amazon EMR版本中,則其發行版本會列為 2.2-amzn-2
。
元件 | 版本 | 描述 |
---|---|---|
aws-sagemaker-spark-sdk | 1.4.1 | Amazon SageMaker Spark SDK |
emr-ddb | 4.16.0 | 適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。 |
emr-goodies | 3.1.0 | 適用 Hadoop 生態系統的超便利程式庫。 |
emr-kinesis | 3.5.0 | 適用於 Hadoop 生態系統應用程式的 Amazon Kinesis 連接器。 |
emr-notebook-env | 1.0.0 | 適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway |
emr-s3-dist-cp | 2.16.0 | 針對 Amazon S3 最佳化的分散式複製應用程式。 |
emr-s3-select | 2.0.0 | EMR S3Select 連接器 |
emrfs | 2.44.0 | 適用於 Hadoop 生態系統應用程式的 Amazon S3 連接器。 |
flink-client | 1.11.2 | Apache Flink 命令列用戶端指令碼和應用程式。 |
flink-jobmanager-config | 1.11.2 | 管理 Apache Flink EMR節點上的資源 JobManager。 |
ganglia-monitor | 3.7.2 | Hadoop 生態系統應用程式內嵌 Ganglia 代理程式以及 Ganglia 監控代理程式。 |
ganglia-metadata-collector | 3.7.2 | Ganglia 監控代理程式的彙總指標 Ganglia 中繼資料收集器。 |
ganglia-web | 3.7.1 | 由 Ganglia 中繼資料收集器收集,以檢視指標的 Web 應用程式。 |
hadoop-client | 3.2.1-amzn-2 | Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。 |
hadoop-hdfs-datanode | 3.2.1-amzn-2 | HDFS 儲存區塊的節點層級服務。 |
hadoop-hdfs-library | 3.2.1-amzn-2 | HDFS command-line 用戶端和程式庫 |
hadoop-hdfs-namenode | 3.2.1-amzn-2 | HDFS 服務,用於追蹤檔案名稱和區塊位置。 |
hadoop-hdfs-journalnode | 3.2.1-amzn-2 | HDFS 服務,用於管理 HA 叢集上的 Hadoop 檔案系統日誌。 |
hadoop-httpfs-server | 3.2.1-amzn-2 | HTTP HDFS操作的端點。 |
hadoop-kms-server | 3.2.1-amzn-2 | 以 Hadoop 的 為基礎的密碼編譯金鑰管理伺服器 KeyProvider API。 |
hadoop-mapred | 3.2.1-amzn-2 | MapReduce 執行引擎程式庫,用於執行 MapReduce 應用程式。 |
hadoop-yarn-nodemanager | 3.2.1-amzn-2 | YARN 服務,用於管理個別節點上的容器。 |
hadoop-yarn-resourcemanager | 3.2.1-amzn-2 | YARN 服務,用於配置和管理叢集資源和分散式應用程式。 |
hadoop-yarn-timeline-server | 3.2.1-amzn-2 | 擷取YARN應用程式目前和歷史資訊的 服務。 |
hbase-hmaster | 2.2.6-amzn-0 | 負責協調區域和執行管理命令的HBase叢集的服務。 |
hbase-region-server | 2.2.6-amzn-0 | 服務一或多個HBase區域的服務。 |
hbase-client | 2.2.6-amzn-0 | HBase command-line 用戶端。 |
hbase-rest-server | 2.2.6-amzn-0 | 為 提供RESTfulHTTP端點的服務HBase。 |
hbase-thrift-server | 2.2.6-amzn-0 | 向 提供 Thrift 端點的服務HBase。 |
hcatalog-client | 3.1.2-amzn-3 | 操作 hcatalog-server 的「hcat」命令列用戶端。 |
hcatalog-server | 3.1.2-amzn-3 | 為分散式應用程式提供 HCatalog、資料表和儲存管理層的服務。 |
hcatalog-webhcat-server | 3.1.2-amzn-3 | HTTP 端點提供REST介面給 HCatalog。 |
hive-client | 3.1.2-amzn-3 | Hive 命令列用戶端。 |
hive-hbase | 3.1.2-amzn-3 | Hive-hbase 用戶端。 |
hive-metastore-server | 3.1.2-amzn-3 | 存取 Hive 中繼存放區的服務,這是在 Hadoop 操作SQL上儲存 中繼資料的語意儲存庫。 |
hive-server2 | 3.1.2-amzn-3 | 依 Web 請求接受 Hive 查詢的服務。 |
hudi | 0.6.0-amzn-1 | 增量處理架構,以低延遲和高效率強化資料管道。 |
hudi-presto | 0.6.0-amzn-1 | 用於使用 Hudi 執行 Presto 的套件程式庫。 |
hudi-prestosql | 0.6.0-amzn-1 | 用於搭配 Hudi 執行 PrestoSQL 的套件程式庫。 |
hudi-spark | 0.6.0-amzn-1 | 用於使用 Hudi 執行 Spark 的套件程式庫。 |
hue-server | 4.8.0 | 使用 Hadoop 生態系統應用程式分析資料的 Web 應用程式 |
jupyterhub | 1.1.0 | 適用於 Jupyter 筆記本的多使用者伺服器 |
livy-server | 0.7.0-incubating | REST 與 Apache Spark 互動的介面 |
nginx | 1.12.1 | nginx 【引擎 x】 是 HTTP和 反向代理伺服器 |
mxnet | 1.7.0 | 靈活有效率的程式庫,具可擴展性,適用於深度學習。 |
mariadb-server | 5.5.64+ | MariaDB 資料庫伺服器。 |
nvidia-cuda | 10.1.243 | Nvidia 驅動程式和 Cuda 工具組 |
oozie-client | 5.2.0 | Oozie 命令列用戶端。 |
oozie-server | 5.2.0 | 接受 Oozie 工作流程要求的服務。 |
opencv | 4.4.0 | 開放原始碼電腦 Vision 程式庫。 |
phoenix-library | 5.0.0-HBase-2.0 | 適用於伺服器和用戶端的 phoenix 程式庫 |
phoenix-query-server | 5.0.0-HBase-2.0 | 提供 Avatica JDBC存取權以及通訊協定緩衝區和JSON格式存取權的輕量型伺服器 API |
presto-coordinator | 0.238.3-amzn-1 | 在 presto-workers 之間接受查詢和執行管理查詢的服務。 |
presto-worker | 0.238.3-amzn-1 | 執行查詢各部分的服務。 |
presto-client | 0.238.3-amzn-1 | 安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。 |
prestosql-coordinator | 343 | 在 prestosql-workers 之間接受查詢和執行管理查詢的服務。 |
prestosql-worker | 343 | 執行查詢各部分的服務。 |
prestosql-client | 343 | 安裝於 HA 叢集的待命主節點的 Presto 命令列用戶端,該主節點上的 Presto 伺服器未啟動。 |
pig-client | 0.17.0 | Pig 命令列用戶端。 |
r | 3.4.3 | 統計運算 R 專案 |
ranger-kms-server | 2.0.0 | Apache Ranger Key Management System |
spark-client | 3.0.1-amzn-0 | Spark 命令列用戶端。 |
spark-history-server | 3.0.1-amzn-0 | 用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。 |
spark-on-yarn | 3.0.1-amzn-0 | 的記憶體內執行引擎YARN。 |
spark-yarn-slave | 3.0.1-amzn-0 | 從屬所需的 Apache Spark YARN 程式庫。 |
spark-rapids | 0.2.0 | 使用 加速 Apache Spark 的 NVIDIA Spark RAPIDS外掛程式GPUs。 |
sqoop-client | 1.4.7 | Apache Sqoop 命令列用戶端。 |
tensorflow | 2.3.1 | TensorFlow 適用於高效能數值運算的開放原始碼軟體程式庫。 |
tez-on-yarn | 0.9.2 | tez YARN 應用程式和程式庫。 |
webserver | 2.4.41+ | Apache HTTP 伺服器。 |
zeppelin-server | 0.9.0-preview1 | 能進行互動式資料分析,以 Web 為基礎的筆記型電腦。 |
zookeeper-server | 3.4.14 | 用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。 |
zookeeper-client | 3.4.14 | ZooKeeper 命令列用戶端。 |
6.2.0 組態類別
組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態XML檔案,例如 hive-site.xml
。如需詳細資訊,請參閱設定應用程式。
當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組。
分類 | 描述 | 重新設定動作 |
---|---|---|
capacity-scheduler | 變更 Hadoop 中 capacity-scheduler.xml 檔案的值。 | Restarts the ResourceManager service. |
container-executor | 變更 Hadoop YARN的 container-executor.cfg 檔案中的值。 | Not available. |
container-log4j | 變更 Hadoop YARN的 container-log4j.properties 檔案中的值。 | Not available. |
core-site | 變更 Hadoop 中 core-site.xml 檔案的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Ranger KMS, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | 變更 Docker 相關設定。 | Not available. |
emrfs-site | 變更EMRFS設定。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts HBaseRegionserver, HBaseMaster, HBaseThrift, HBaseRest, HiveServer2, Hive MetaStore, Hadoop Httpfs, and MapReduce-HistoryServer. |
flink-conf | 變更 flink-conf.yaml 設定。 | Not available. |
flink-log4j | 變更 Flink log4j.properties 設定。 | Not available. |
flink-log4j-yarn-session | 變更 Flink log4j-yarn-session.properties 設定。 | Not available. |
flink-log4j-cli | 變更 Flink log4j-cli.properties 設定。 | Not available. |
hadoop-env | 在 Hadoop 環境中變更所有 Hadoop 元件的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts PhoenixQueryserver, HiveServer2, Hive MetaStore, and MapReduce-HistoryServer. |
hadoop-log4j | 變更 Hadoop 中 log4j.properties 檔案的值。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | 變更 hadoop ssl 伺服器組態 | Not available. |
hadoop-ssl-client | 變更 hadoop ssl 用戶端組態 | Not available. |
hbase | Apache 的 Amazon EMR精選設定HBase。 | Custom EMR specific property. Sets emrfs-site and hbase-site configs. See those for their associated restarts. |
hbase-env | 變更 HBase環境中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-log4j | 變更 HBasehbase-log4j.properties 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-metrics | 變更 HBase的 hadoop-metrics2-hbase.properties 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. |
hbase-policy | 變更 hbase-policy.xml HBase檔案中的值。 | Not available. |
hbase-site | 變更 HBasehbase-site.xml 檔案中的值。 | Restarts the HBase services RegionServer, HBaseMaster, ThriftServer, RestServer. Additionally restarts Phoenix QueryServer. |
hdfs-encryption-zones | 設定HDFS加密區域。 | This classification should not be reconfigured. |
hdfs-env | 變更HDFS環境中的值。 | Restarts Hadoop HDFS ZKFC. |
hdfs-site | 變更 hdfs-site.xml HDFS中的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
hcatalog-env | 變更 HCatalog環境中的值。 | Restarts Hive HCatalog Server. |
hcatalog-server-jndi | 變更 jndi.properties HCatalog中的值。 | Restarts Hive HCatalog Server. |
hcatalog-server-proto-hive-site | 變更 HCatalog. proto-hive-sitexml 中的值。 | Restarts Hive HCatalog Server. |
hcatalog-webhcat-env | 變更 HCatalog W ebHCat環境中的值。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-log4j2 | 在 HCatalog W ebHCat的 log4j2.properties 中變更值。 | Restarts Hive WebHCat server. |
hcatalog-webhcat-site | 在 HCatalog W ebHCat的 webhcat-site.xml 檔案中變更值。 | Restarts Hive WebHCat server. |
hive | Apache Hive 的 Amazon EMR精選設定。 | Sets configurations to launch Hive LLAP service. |
hive-beeline-log4j2 | 變更 Hive 的 beeline-log4j2.properties 檔案中的值。 | Not available. |
hive-parquet-logging | 變更 Hive 的 parquet-logging.properties 檔案中的值。 | Not available. |
hive-env | 變更 Hive 環境中的值。 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. |
hive-exec-log4j2 | 變更 Hive hive-exec-log4j2.properties 檔案中的值。 | Not available. |
hive-llap-daemon-log4j2 | 變更 Hive 的 llap-daemon-log4j2.properties 檔案中的值。 | Not available. |
hive-log4j2 | 變更 Hive 的 hive-log4j2.properties 檔案中的值。 | Not available. |
hive-site | 變更 Hive 的 hive-site.xml 檔案中的值 | Restarts HiveServer2, HiveMetastore, and Hive HCatalog-Server. Runs Hive schemaTool CLI commands to verify hive-metastore. Also restarts Oozie and Zeppelin. |
hiveserver2-site | 變更 Hive Server2 的 hiveserver2-site.xml 檔案中的值 | Not available. |
hue-ini | 變更 Hue 的 ini 檔案中的值 | Restarts Hue. Also activates Hue config override CLI commands to pick up new configurations. |
httpfs-env | 變更HTTPFS環境中的值。 | Restarts Hadoop Httpfs service. |
httpfs-site | 變更 Hadoop 中 httpfs-site.xml 檔案的值。 | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | 變更 Hadoop 中 kms-acls.xml 檔案的值。 | Not available. |
hadoop-kms-env | 變更 Hadoop KMS環境中的值。 | Restarts Hadoop-KMS service. |
hadoop-kms-log4j | 變更 Hadoop 的 kms-log4j.properties 檔案中的值。 | Not available. |
hadoop-kms-site | 變更 Hadoop 中 kms-site.xml 檔案的值。 | Restarts Hadoop-KMS and Ranger-KMS service. |
hudi-env | 變更 Hudi 環境中的值。 | Not available. |
jupyter-notebook-conf | 變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。 | Not available. |
jupyter-hub-conf | 變更 JupyterHubsjupyterhub_config.py 檔案中的值。 | Not available. |
jupyter-s3-conf | 設定 Jupyter 筆記本 S3 持久性。 | Not available. |
jupyter-sparkmagic-conf | 變更 Sparkmagic 中 config.json 檔案的值。 | Not available. |
livy-conf | 變更 Livy 的 livy.conf 檔案中的值。 | Restarts Livy Server. |
livy-env | 變更 Livy 環境中的值。 | Restarts Livy Server. |
livy-log4j | 變更 Livy log4j.properties 設定。 | Restarts Livy Server. |
mapred-env | 變更 MapReduce 應用程式環境中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | 變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
oozie-env | 變更 Oozie 環境中的值。 | Restarts Oozie. |
oozie-log4j | 變更 Oozie 的 oozie-log4j.properties 檔案中的值。 | Restarts Oozie. |
oozie-site | 變更 Oozie 的 oozie-site.xml 檔案中的值。 | Restarts Oozie. |
phoenix-hbase-metrics | 變更 Phoenix 的 hadoop-metrics2-hbase.properties 檔案中的值。 | Not available. |
phoenix-hbase-site | 變更 Phoenix 的 hbase-site.xml 檔案中的值。 | Not available. |
phoenix-log4j | 變更 Phoenix 中 log4j.properties 檔案的值。 | Restarts Phoenix-QueryServer. |
phoenix-metrics | 變更 Phoenix 的 hadoop-metrics2-phoenix.properties 檔案中的值。 | Not available. |
pig-env | 在 Pig 環境中變更值。 | Not available. |
pig-properties | 變更 Pig 的 pig.properties 檔案中的值。 | Restarts Oozie. |
pig-log4j | 變更 Pig 的 log4j.properties 檔案中的值。 | Not available. |
presto-log | 變更 Presto 的 log.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-config | 變更 Presto 的 config.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-password-authenticator | 變更 Presto 的 password-authenticator.properties 檔案中的值。 | Not available. |
presto-env | 變更 Presto 的 presto-env.sh 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-node | 變更 Presto 的 node.properties 檔案中的值。 | Not available. |
presto-connector-blackhole | 變更 Presto 的 blackhole.properties 檔案中的值。 | Not available. |
presto-connector-cassandra | 變更 Presto 的 cassandra.properties 檔案中的值。 | Not available. |
presto-connector-hive | 變更 Presto 的 hive.properties 檔案中的值。 | Restarts Presto-Server (for PrestoDB) |
presto-connector-jmx | 變更 Presto 的 jmx.properties 檔案中的值。 | Not available. |
presto-connector-kafka | 變更 Presto 的 kafka.properties 檔案中的值。 | Not available. |
presto-connector-localfile | 變更 Presto 的 localfile.properties 檔案中的值。 | Not available. |
presto-connector-memory | 變更 Presto 的 memory.properties 檔案中的值。 | Not available. |
presto-connector-mongodb | 變更 Presto 的 mongodb.properties 檔案中的值。 | Not available. |
presto-connector-mysql | 變更 Presto 的 mysql.properties 檔案中的值。 | Not available. |
presto-connector-postgresql | 變更 Presto 的 postgresql.properties 檔案中的值。 | Not available. |
presto-connector-raptor | 變更 Presto 的 raptor.properties 檔案中的值。 | Not available. |
presto-connector-redis | 變更 Presto 的 redis.properties 檔案中的值。 | Not available. |
presto-connector-redshift | 變更 Presto 的 redshift.properties 檔案中的值。 | Not available. |
presto-connector-tpch | 變更 Presto 的 tpch.properties 檔案中的值。 | Not available. |
presto-connector-tpcds | 變更 Presto 的 tpcds.properties 檔案中的值。 | Not available. |
prestosql-log | 變更 Presto 的 log.properties 檔案中的值。 | Restarts Presto-Server (for PrestoSQL) |
prestosql-config | 變更 Presto 的 config.properties 檔案中的值。 | Restarts Presto-Server (for PrestoSQL) |
prestosql-password-authenticator | 變更 Presto 的 password-authenticator.properties 檔案中的值。 | Restarts Presto-Server (for PrestoSQL) |
prestosql-env | 變更 Presto 的 presto-env.sh 檔案中的值。 | Restarts Presto-Server (for PrestoSQL) |
prestosql-node | 變更 Presto SQL的 node.properties 檔案中的值。 | Not available. |
prestosql-connector-blackhole | 變更 Presto SQL的 blackhole.properties 檔案中的值。 | Not available. |
prestosql-connector-cassandra | 變更 Presto SQLcassandra.properties 檔案中的值。 | Not available. |
prestosql-connector-hive | 變更 Presto SQL的 hive.properties 檔案中的值。 | Restarts Presto-Server (for PrestoSQL) |
prestosql-connector-jmx | 變更 Presto SQL的 jmx.properties 檔案中的值。 | Not available. |
prestosql-connector-kafka | 變更 Presto SQL的 kafka.properties 檔案中的值。 | Not available. |
prestosql-connector-localfile | 變更 Presto SQL的 localfile.properties 檔案中的值。 | Not available. |
prestosql-connector-memory | 變更 Presto SQL的 memory.properties 檔案中的值。 | Not available. |
prestosql-connector-mongodb | 變更 Presto SQL的 mongodb.properties 檔案中的值。 | Not available. |
prestosql-connector-mysql | 變更 Presto SQL的 mysql.properties 檔案中的值。 | Not available. |
prestosql-connector-postgresql | 變更 Presto SQL的 postgresql.properties 檔案中的值。 | Not available. |
prestosql-connector-raptor | 變更 Presto SQL的 raptor.properties 檔案中的值。 | Not available. |
prestosql-connector-redis | 變更 Presto SQL的 redis.properties 檔案中的值。 | Not available. |
prestosql-connector-redshift | 變更 Presto SQL的 redshift.properties 檔案中的值。 | Not available. |
prestosql-connector-tpch | 變更 Presto SQL的 tpch.properties 檔案中的值。 | Not available. |
prestosql-connector-tpcds | 變更 Presto SQL的 tpcds.properties 檔案中的值。 | Not available. |
ranger-kms-dbks-site | 變更 Ranger 的 dbks-site.xml 檔案中的值KMS。 | Restarts Ranger KMS Server. |
ranger-kms-site | 變更 Ranger 的 ranger-kms-site.xml 檔案中的值KMS。 | Restarts Ranger KMS Server. |
ranger-kms-env | 在 Ranger KMS環境中變更值。 | Restarts Ranger KMS Server. |
ranger-kms-log4j | 變更 Ranger 的 kms-log4j.properties 檔案中的值KMS。 | Not available. |
ranger-kms-db-ca | 變更 S3 for MySQL 與 Ranger SSL連線上的 CA 檔案值KMS。 | Not available. |
spark | Apache Spark 的 Amazon EMR精選設定。 | This property modifies spark-defaults. See actions there. |
spark-defaults | 變更 Spark 的 spark-defaults.conf 檔案中的值。 | Restarts Spark history server and Spark thrift server. |
spark-env | 變更 Spark 環境中的值。 | Restarts Spark history server and Spark thrift server. |
spark-hive-site | 變更 Spark 的 hive-site.xml 檔案中的值 | Not available. |
spark-log4j | 變更 Spark 中 log4j.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. |
spark-metrics | 變更 Spark 中 metrics.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. |
sqoop-env | 變更 Sqoop 環境中的值。 | Not available. |
sqoop-oraoop-site | 變更 Sqoop OraOop的 oraoop-site.xml 檔案中的值。 | Not available. |
sqoop-site | 變更 Sqoop 的 sqoop-site.xml 檔案中的值。 | Not available. |
tez-site | 變更 Tez 的 tez-site.xml 檔案中的值。 | Restart Oozie. |
yarn-env | 變更YARN環境中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | 變更 YARN的 yarn-site.xml 檔案中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zeppelin-env | 變更 Zeppelin 環境中的值。 | Restarts Zeppelin. |
zookeeper-config | 變更 ZooKeeperzoo.cfg 檔案中的值。 | Restarts Zookeeper server. |
zookeeper-log4j | 變更 ZooKeeper的 log4j.properties 檔案中的值。 | Restarts Zookeeper server. |