使用 EMRFS S3-optimized遞交通訊協定 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 EMRFS S3-optimized遞交通訊協定

EMRFS S3-optimized遞交通訊協定是一種替代FileCommitProtocol實作,針對使用 時將具有 Spark 動態分割區的檔案寫入 Amazon S3 進行最佳化EMRFS。該通訊協定透過在 Spark 動態分割區覆寫作業遞交階段避免 Amazon S3 中的重新命名操作,從而提升應用程式的效能。

請注意,使用 EMRFS S3-optimized遞交者 也會藉由避免重新命名操作來改善效能。不過,它不適用於動態分割區覆寫的案例,而遞交通訊協定的改進僅針對動態分割區覆寫案例。

遞交通訊協定適用於 Amazon 5.30.0 及更新EMR版本,以及 6.2.0 及更新版本,且預設為啟用。Amazon 從 5.31.0 版開始EMR新增了平行處理改進。此通訊協定用於使用 Spark DataFrames或資料集的 Spark 任務。在某些情況下將不會使用遞交通訊協定。如需詳細資訊,請參閱EMRFS S3-optimized遞交通訊協定的需求