Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Instala núcleos y bibliotecas en un espacio de trabajo de EMR Studio
Cada Amazon EMR Studio Workspace incluye un conjunto de bibliotecas y núcleos preinstalados.
Núcleos y bibliotecas en clústeres que se ejecutan en Amazon EC2
También puedes personalizar el entorno de EMR Studio de las siguientes maneras cuando utilices EMR clústeres que se ejecuten en AmazonEC2:
-
Instale los kernels de cuadernos de Jupyter y las bibliotecas de Python en el nodo principal de un clúster: al instalar bibliotecas con esta opción, todos los espacios de trabajo asociados al mismo clúster comparten esas bibliotecas. Puede instalar núcleos o bibliotecas desde una celda de portátil o mientras está conectado SSH al nodo principal de un clúster.
-
Usar bibliotecas para cuadernos: cuando los usuarios del espacio de trabajo instalan y usan bibliotecas desde la celda de un cuaderno, esas bibliotecas solo están disponibles para ese cuaderno. Esta opción permite que diferentes cuadernos que utilizan el mismo clúster funcionen sin tener que preocuparse por los conflictos en las versiones de las bibliotecas.
EMRLos espacios de trabajo de Studio tienen la misma arquitectura subyacente que los cuadernos. EMR Puede instalar y usar los núcleos de Jupyter Notebook y las bibliotecas de Python con EMR Studio del mismo modo que lo haría con Notebooks. EMR Para obtener instrucciones, consulte Instalación y uso de kernels y bibliotecas en EMR Studio.
Núcleos y bibliotecas en Amazon EMR en clústeres EKS
Los EKS clústeres de Amazon EMR on incluyen los núcleos Python 3.7 PySpark y Python 3.7 con un conjunto de bibliotecas preinstaladas. Amazon EMR on EKS no admite la instalación de bibliotecas o clústeres adicionales.
Cada EKS clúster EMR de Amazon on viene con las siguientes PySpark bibliotecas y Python instaladas:
-
Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn
-
PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn
Núcleos y bibliotecas en aplicaciones EMR sin servidor
Cada aplicación EMR sin servidor viene con las siguientes PySpark bibliotecas y Python instaladas:
-
Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn
-
PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn