AWS Glue 最新バージョンを使用する -

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue 最新バージョンを使用する

AWS Glue 最新バージョンを使用することをお勧めします。ジョブのパフォーマンスを自動的に向上させる可能性のある最適化とアップグレードが各バージョンに組み込まれています。例えば、 AWS Glue 4.0 には次の新機能があります。

  • 新しい最適化された Apache Spark 3.3.0 ランタイム – AWS Glue 4.0 は Apache Spark 3.3.0 ランタイムに基づいて構築され、オープンソースの Spark と同等のパフォーマンスの向上を実現します。Spark 3.3.0 ランタイムは、Spark 2.x の多くのイノベーションに基づいています。

  • 拡張 Amazon Redshift コネクタ – AWS Glue 4.0 以降のバージョンでは、Apache Spark 用の Amazon Redshift 統合が提供されます。統合は既存のオープンソースコネクタ上に構築され、パフォーマンスとセキュリティを強化します。統合により、アプリケーションのパフォーマンスが最大 10 倍速くなります。詳細については、Amazon Redshift と Apache Spark の統合に関するブログ記事を参照してください。

  • バージョン 3.0 以降のバージョンではSIMDCSV、 および JSON データを使用したベクトル化された読み取りの ベースの実行により、行ベースのリーダーと比較して全体的なジョブパフォーマンスを大幅に高速化できる最適化されたリーダーが追加されます。 AWS Glue CSV データの詳細については、「ベクトル化されたSIMDCSVリーダーによる読み取りパフォーマンスの最適化」を参照してください。JSON データの詳細については、「Apache Arrow 列形式 でベクトル化されたSIMDJSONリーダーを使用する」を参照してください。

各 AWS Glue バージョンには、コネクタ、ドライバー、ライブラリの更新など、多くの でこの種のアップグレードが含まれます。詳細については、「 AWS Glue バージョン」およびAWS Glue 「ジョブを AWS Glue バージョン 4.0 に移行する」を参照してください。