使用 EMRFS S3 优化的提交器 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 EMRFS S3 优化的提交器

EMRFSS3 优化的提交器是一种替代OutputCommitter实现,针对使用时向 Amazon S3 写入文件进行了优化。EMRFSEMRFSS3 优化的提交器通过避免在任务和任务提交阶段在 Amazon S3 中执行列出和重命名操作来提高应用程序性能。提交器适用于亚马逊 5.19.0 及更高EMR版本,亚马逊 EMR 5.20.0 及更高版本默认启用。提交者用于使用 Spark SQL DataFrames、或数据集的 Spark 作业。从 Amazon EMR 6.4.0 开始,此提交器可用于所有常见格式,ORC包括 parquet 和基于文本的格式(包括CSV和)。JSON对于亚马逊 EMR 6.4.0 之前的版本,仅支持 Parquet 格式。在某些情况下,不使用提交程序。有关更多信息,请参阅 对 EMRFS S3 优化的提交者的要求