Spark コネクタを使用する際の考慮事項と制限事項
Spark コネクタは、認証情報の管理、セキュリティの設定、他の AWS サービスへの接続を行うさまざまな方法をサポートしています。機能的で回復力のある接続を設定するには、このリストの推奨事項について習熟してください。
-
Amazon EMR 上の Spark から Amazon Redshift への JDBC 接続に対して SSL をアクティブ化することをお勧めします。
-
ベストプラクティスとして、AWS Secrets Manager で Amazon Redshift クラスターの認証情報を管理することをお勧めします。例については、「Using AWS Secrets Manager to retrieve credentials for connecting to Amazon Redshift」を参照してください。
-
Amazon Redshift 認証パラメータのパラメータ
aws_iam_role
を使用して IAM ロールを渡すことをお勧めします。 -
現在、パラメータ
tempformat
は Parquet 形式をサポートしていません。 -
tempdir
URI は Amazon S3 の場所を指します。この一時ディレクトリは、自動的にはクリーンアップされないため、追加コストが発生する可能性があります。 -
Amazon Redshift については、次の推奨事項を検討してください。
-
Amazon Redshift クラスターにパブリックにアクセスできないようにすることをお勧めします。
-
Amazon Redshift 監査ログ作成を有効にすることをお勧めします。
-
Amazon Redshift 保管時の暗号化を有効にすることをお勧めします。
-
-
Amazon S3 については、次の推奨事項を検討してください。
-
Amazon S3 バケットへのパブリックアクセスをブロックすることをお勧めします。
-
Amazon S3 サーバー側の暗号化を使用して、使用する S3 バケットを暗号化することをお勧めします。
-
Amazon S3 ライフサイクルポリシーを使用して、S3 バケットの保持ルールを定義することをお勧めします。
-
Amazon EMR は、常にオープンソースからイメージにインポートされるコードを検証します。セキュリティ確保のため、Spark から Amazon S3 への認証方法として
tempdir
URI で AWS アクセスキーをエンコードする方法はサポートしていません。
-
コネクタとそのサポートされているパラメータの使用方法の詳細については、次のリソースを参照してください。
-
「Amazon Redshift 管理ガイド」の「Amazon Redshift integration for Apache Spark」
-
Github の
spark-redshift
コミュニティリポジトリ