在 EMR Studio Workspace 中安裝核心和程式庫 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 EMR Studio Workspace 中安裝核心和程式庫

每個 Amazon EMR Studio 工作區都隨附一組預先安裝的程式庫和核心。

在 Amazon 上執行之叢集上的核心和程式庫 EC2

當您使用在 Amazon 上執行的EMR叢集時,您也可以透過下列方式自訂 EMR Studio 的環境EC2:

  • 在叢集主節點上安裝 Jupyter 筆記本核心和 Python 程式庫 - 當您使用此選項安裝程式庫時,所有附接至相同叢集的工作區都會共用這些程式庫。您可以從筆記本儲存格內或使用 連接到叢集SSH的主要節點時,安裝核心或程式庫。

  • 使用筆記本範圍的程式庫 - 當工作區使用者從筆記本儲存格內安裝及使用程式庫時,這些程式庫僅供該筆記本使用。此選項可讓使用相同叢集的不同筆記本運作,而不必擔心程式庫版本發生衝突。

EMR Studio Workspaces 的基礎架構與EMR筆記本相同。您可以使用與筆記本相同的方式,在 EMR Studio 中安裝和使用 Jupyter EMR Notebook 核心和 Python 程式庫。如需說明,請參閱 在 EMR Studio 中安裝和使用核心和程式庫

EKS 叢集上 Amazon EMR上的核心和程式庫

EKS 叢集EMR上的 Amazon 包含具有一組預先安裝程式庫的 PySpark 和 Python 3.7 核心。Amazon EMR on EKS 不支援安裝其他程式庫或叢集。

EKS 叢集EMR上的每個 Amazon 都已安裝下列 Python 和 PySpark 程式庫:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR Serverless 應用程式的核心和程式庫

每個 EMR Serverless 應用程式都已安裝下列 Python 和 PySpark 程式庫:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn