从 EMR Studio 控制台运行作业
您可以向 EMR Serverless 应用程序提交作业运行,从 EMR Studio 控制台查看作业。要在 EMR Studio 控制台上创建或导航到 EMR Serverless 应用程序,请按照控制台入门中的说明操作。
提交作业
在提交作业页面上,您可以按如下方式向 EMR Serverless 应用程序提交作业。
- Spark
-
-
在名称字段中,输入作业运行的名称。
-
在运行时角色字段中,输入 EMR Serverless 应用程序在运行作业时可代入的 IAM 角色名称。要了解有关运行时角色的更多信息,请参阅 Amazon EMR Serverless 的作业运行时角色。
-
在脚本位置字段中,输入要运行的脚本或 JAR 的 Amazon S3 位置。对于 Spark 作业,脚本可以是 Python(
.py
)文件或 JAR(.jar
)文件。 -
如果脚本位置是 JAR 文件,请在主类字段中输入作为作业入口的类名。
-
(可选)输入其余字段的值。
-
脚本参数:输入要传递给主 JAR 或 Python 脚本的参数。您的代码会读取这些参数。用逗号分隔数组中的每个参数。
-
Spark 属性:展开 Spark 属性部分,在此字段中输入任何 Spark 配置参数。
注意
如果指定 Spark 驱动程序和执行程序的大小,则必须考虑内存开销。在属性
spark.driver.memoryOverhead
和spark.executor.memoryOverhead
中指定内存开销值。内存开销的默认值为容器内存的 10%,最小为 384MB。执行程序内存和内存开销之和不能超过工作线程内存。例如,30GB 工作线程的最大spark.executor.memory
必须为 27GB。 -
作业配置:在此字段中指定任何作业配置。您可以使用这些作业配置覆盖应用程序的默认配置。
-
其他设置:激活或停用作为元存储的 AWS Glue Data Catalog,并修改应用程序日志设置。要了解有关元存储配置的更多信息,请参阅 EMR Serverless 的元存储配置。要了解有关应用程序日志记录选项的更多信息,请参阅 存储日志。
-
标签:为应用程序分配自定义标签。
-
-
选择提交作业。
-
- Hive
-
-
在名称字段中,输入作业运行的名称。
-
在运行时角色字段中,输入 EMR Serverless 应用程序在运行作业时可代入的 IAM 角色名称。
-
在脚本位置字段中,输入要运行的脚本或 JAR 的 Amazon S3 位置。对于 Hive 作业,脚本必须是 Hive(
.sql
)文件。 -
(可选)输入其余字段的值。
-
初始化脚本位置:输入在 Hive 脚本运行之前初始化表的脚本位置。
-
Hive 属性:展开 Hive 属性部分,在此字段中输入任何 Hive 配置参数。
-
作业配置:指定任何作业配置。您可以使用这些作业配置覆盖应用程序的默认配置。对于 Hive 作业,
hive.exec.scratchdir
和hive.metastore.warehouse.dir
是hive-site
配置中的必需属性。{ "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://
DOC-EXAMPLE_BUCKET
/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET
/hive/warehouse" } } ], "monitoringConfiguration": {} } -
其他设置:激活或停用作为元存储的 AWS Glue Data Catalog,并修改应用程序日志设置。要了解有关元存储配置的更多信息,请参阅 EMR Serverless 的元存储配置。要了解有关应用程序日志记录选项的更多信息,请参阅 存储日志。
-
标签:为应用程序分配任何自定义标签。
-
-
选择提交作业。
-
查看作业运行
在应用程序详细信息页面上的作业运行选项卡中,您可以查看作业运行,对作业运行执行以下操作。
取消作业:要取消处于 RUNNING
状态的作业运行,请选择此选项。要了解有关作业运行转换的更多信息,请参阅 任务运行状态。
克隆作业:要克隆之前的运行作业并重新提交,请选择此选项。