JupyterHub - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

JupyterHub

Jupyter 筆記本是一種可用於建立和共用文件的開放原始碼 web 應用程式,其中包含即時程式碼、方程式、視覺化和敘述文字。JupyterHub 可讓您託管單一使用者 Jupyter 筆記本伺服器的多個執行個體。當您使用 建立叢集時 JupyterHub,Amazon 會在叢集的主節點上EMR建立 Docker 容器。 JupyterHub、Jupyter 所需的所有元件,以及容器內執行的 Sparkmagic

Sparkmagic 是一個核心程式庫,允許 Jupyter 筆記本EMR透過 與在 Amazon 上執行的 Apache Spark 互動Apache Livy,這是 Spark 的REST伺服器。使用 建立叢集時,會自動安裝 Spark 和 Apache Livy JupyterHub。Jupyter 的預設 Python 3 核心與 PySpark 3 PySpark以及 Sparkmagic 可用的 Spark 核心一起提供。您可以使用這些核心,使用 Python 和 Scala 執行臨時 Spark 程式碼和互動式SQL查詢。您可以在 Docker 容器手動安裝其他核心。如需詳細資訊,請參閱安裝其他核心和程式庫

下圖說明 Amazon JupyterHub 上的 元件EMR,以及筆記本使用者和管理員對應的身分驗證方法。如需詳細資訊,請參閱新增 Jupyter 筆記本使用者和管理員

JupyterHub architecture on EMR showing user authentication and component interactions.

下表列出 Amazon 7.x 系列最新版本中 JupyterHub 包含的 EMR 版本,以及 Amazon EMR搭配 安裝的元件。 JupyterHub

如需此版本 JupyterHub 中安裝的 元件版本,請參閱 7.3.0 版元件版本

JupyterHub emr-7.3.0 的版本資訊
Amazon EMR發行標籤 JupyterHub 版本 搭配 安裝的元件 JupyterHub

emr-7.3.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

下表列出 Amazon EMR 6.x 系列最新版本中 JupyterHub 包含的 版本,以及 Amazon EMR搭配 安裝的元件。 JupyterHub

如需此版本 JupyterHub 中安裝的 元件版本,請參閱版本 6.15.0 元件版本

JupyterHub emr-6.15.0 的版本資訊
Amazon EMR發行標籤 JupyterHub 版本 搭配 安裝的元件 JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

下表列出 Amazon EMR 5.x 系列最新版本中 JupyterHub 包含的 版本,以及 Amazon EMR搭配 安裝的元件。 JupyterHub

如需此版本 JupyterHub 中安裝的 元件版本,請參閱版本 5.36.2 元件版本

JupyterHub emr-5.36.2 的版本資訊
Amazon EMR發行標籤 JupyterHub 版本 搭配 安裝的元件 JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

在 Amazon JupyterHub 上包含的 Python 3 核心EMR為 3.6.4。

jupyterhub 容器內安裝的程式庫可能因 Amazon EMR版本和 Amazon EC2AMI版本而異。

使用 conda 列出已安裝的程式庫。
  • 在主節點命令列上執行以下命令:

    sudo docker exec jupyterhub bash -c "conda list"
使用 pip 列出已安裝的程式庫。
  • 在主節點命令列上執行以下命令:

    sudo docker exec jupyterhub bash -c "pip freeze"