使用 Amazon S3 提高 Spark 性能 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon S3 提高 Spark 性能

当使用 Spark 查询、读取和写入保存在亚马逊 S3 中的数据时,亚马逊提供的功能可帮助优化性能。EMR

S3 Selec t 可以通过将处理 “下推” 到 Amazon S3 来提高某些应用程序中CSV和JSON文件的查询性能。

EMRFSS3 优化的提交者是该OutputCommitter类的替代方案,在使用 Spark SQL、和数据集将 Parquet 文件写入 Amazon S3 时,该类使用分段上传功能来提高性能。EMRFS DataFrames