EMR 上EKS最佳實務指南的連結至 Amazon GitHub - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

EMR 上EKS最佳實務指南的連結至 Amazon GitHub

我們已使用開放原始碼社群協作建置 Amazon EMR on EKS Best Practices Guide,以便快速迭代並提供建立和執行虛擬叢集方面的建議。建議您使用 Amazon EMR on EKS的最佳實務指南。選擇每個區段中的連結以前往 GitHub網站。

安全

注意

如需在 EMR上使用 Amazon 的安全性詳細資訊EKS,請參閱 Amazon EMR on EKS 安全最佳實務

加密最佳實務:如何對靜態和傳輸中的資料使用加密。

管理網路安全說明如何在連線至託管於 AWS 服務 Amazon RDS和 Amazon Redshift 的資料來源EKS時,為 Amazon EMR 上的 Pod 設定安全群組。

使用 AWS 秘密管理員來存放秘密

Pyspark 作業提交

Pyspark 任務提交:為使用 zip、gge、 wheel 和 pex 等封裝格式pySpark的應用程式指定不同類型的封裝。

儲存

使用EBS磁碟區::如何針對需要磁碟EBS區的任務使用靜態和動態佈建。

使用 Amazon FSx for Lustre 磁碟區:如何針對需要 Amazon FSx for Luster 磁碟區的任務使用靜態和動態佈建。

使用執行個體儲存體磁碟區:如何使用執行個體儲存體磁碟區來處理作業。

中繼存放區整合

使用 Hive 中繼存放區:提供不同方法來使用 Hive 中繼存放區。

使用 AWS Glue:提供設定 AWS Glue 目錄的不同方法。

除錯

使用 Spark 偵錯:如何變更日誌級別。

連線至驅動程式 Pod 上的 Spark 使用者介面

如何在 EMR上將自我託管的 Spark 歷史記錄伺服器與 Amazon 搭配使用EKS

針對EMREKS問題對 Amazon 進行故障診斷

疑難排解

節點放置

將 Kubernetes 節點選取器用於 single-az 和其他使用案例。

使用 Fargate 節點放置

效能

使用動態資源分配 (DRA)

Amazon VPC Container Network Interface 外掛程式 (CNI)、Cluster Autoscaler 和 Core 的EKS最佳實務DNS。

成本最佳化

使用 Spot 執行個體:Amazon EC2 Spot 執行個體最佳實務,以及如何使用 Spark 節點停用功能。

使用 AWS Outposts

EMREKS使用 執行 Amazon AWS Outposts