使用自定义 Python 版本使用自定义 Java 版本构建数据科学映像使用 Apache Sedona 处理地理空间数据

在 EMR Serverless 中使用自定义映像

主题

使用自定义 Python 版本
使用自定义 Java 版本
构建数据科学映像
使用 Apache Sedona 处理地理空间数据

使用自定义 Python 版本

您可以构建自定义映像，以使用不同版本的 Python。例如，要在 Spark 作业中使用 Python 3.10 版本，请运行以下命令：


FROM public.ecr.aws/emr-serverless/spark/emr-6.9.0:latest

USER root

# install python 3
RUN yum install -y gcc openssl-devel bzip2-devel libffi-devel tar gzip wget make
RUN wget https://www.python.org/ftp/python/3.10.0/Python-3.10.0.tgz && \
tar xzf Python-3.10.0.tgz && cd Python-3.10.0 && \
./configure --enable-optimizations && \
make altinstall

# EMRS will run the image as hadoop
USER hadoop:hadoop

在提交 Spark 作业之前，请按如下方式设置属性以使用 Python 虚拟环境。


--conf spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=/usr/local/bin/python3.10
--conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=/usr/local/bin/python3.10
--conf spark.executorEnv.PYSPARK_PYTHON=/usr/local/bin/python3.10

使用自定义 Java 版本

以下示例演示了如何构建自定义映像，以便在 Spark 作业中使用 Java 11。


FROM public.ecr.aws/emr-serverless/spark/emr-6.9.0:latest

USER root

# install JDK 11
RUN sudo amazon-linux-extras install java-openjdk11

# EMRS will run the image as hadoop
USER hadoop:hadoop

在提交 Spark 作业之前，请按如下方式设置 Spark 属性以使用 Java 11。


--conf spark.executorEnv.JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.16.0.8-1.amzn2.0.1.x86_64 
--conf spark.emr-serverless.driverEnv.JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.16.0.8-

构建数据科学映像

以下示例展示了如何包含常见的数据科学 Python 包，如 Pandas 和 NumPy。


FROM public.ecr.aws/emr-serverless/spark/emr-6.9.0:latest

USER root

# python packages
RUN pip3 install boto3 pandas numpy
RUN pip3 install -U scikit-learn==0.23.2 scipy 
RUN pip3 install sk-dist
RUN pip3 install xgboost

# EMR Serverless will run the image as hadoop
USER hadoop:hadoop

使用 Apache Sedona 处理地理空间数据

以下示例演示了如何构建包含 Apache Sedona 的映像以进行地理空间处理。


FROM public.ecr.aws/emr-serverless/spark/emr-6.9.0:latest

USER root

RUN yum install -y wget
RUN wget https://repo1.maven.org/maven2/org/apache/sedona/sedona-core-3.0_2.12/1.3.0-incubating/sedona-core-3.0_2.12-1.3.0-incubating.jar -P /usr/lib/spark/jars/
RUN pip3 install apache-sedona

# EMRS will run the image as hadoop
USER hadoop:hadoop

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用 Hive 用户定义的函数

在 Amazon Redshift 上使用 Spark