Compartir datos entre intérpretes de lenguajes con tablas temporales

Usar cuadernos multilingües con kernels de Spark

Cada kernel de cuadernos de Jupyter tiene un lenguaje predeterminado. Por ejemplo, el idioma predeterminado del núcleo de Spark es Scala y el idioma predeterminado de PySpark los núcleos es Python. Con Amazon EMR 6.4.0 y versiones posteriores, EMR Studio admite blocs de notas multilingües. Esto significa que cada núcleo de EMR Studio puede admitir los siguientes lenguajes además del idioma predeterminado: Python, Spark, R y SparkSQL.

Para activar esta función, especifique una de las siguientes opciones magic comandos al principio de cualquier celda.

Idioma	Comando
Python	`%%pyspark`
Scala	`%%scalaspark`
R	`%%rspark` No se admite para cargas de trabajo interactivas con EMR Serverless.
Spark SQL	`%%sql`

Cuando se invocan, estos comandos ejecutan toda la celda dentro de la misma sesión de Spark utilizando el intérprete del lenguaje correspondiente.

La %%pyspark celda magic permite a los usuarios escribir PySpark código en todos los núcleos de Spark.


%%pyspark
a = 1

¿La célula %%sql magic permite a los usuarios ejecutar SQL código de Spark en todos los núcleos de Spark.


%%sql
SHOW TABLES

¿La celda %%rspark magic permite a los usuarios ejecutar código SparkR en todos los núcleos de Spark.


%%rspark
a <- 1

¿La celda %%scalaspark magic permite a los usuarios ejecutar código de Spark Scala en todos los núcleos de Spark.


%%scalaspark
val a = 1

Compartir datos entre intérpretes de lenguajes con tablas temporales

También puede compartir datos entre intérpretes de lenguajes mediante tablas temporales. En el siguiente ejemplo, se usa %%pyspark en una celda para crear una tabla temporal en Python y se usa %%scalaspark en la celda siguiente para leer los datos de esa tabla en Scala.


%%pyspark
df=spark.sql("SELECT * from nyc_top_trips_report LIMIT 20")
# create a temporary table called nyc_top_trips_report_view in python
df.createOrReplaceTempView("nyc_top_trips_report_view")


%%scalaspark
// read the temp table in scala
val df=spark.sql("SELECT * from nyc_top_trips_report_view")
df.show(5)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Comandos magic

EMR Notebooks