本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Spark 連接器時的考量和限制
-
我們建議您打開從 Amazon 上SSL的星火EMR到亞馬 Amazon Redshift 的JDBC連接。
-
我們建議您在中管理 Amazon Redshift 叢集的登入資料 AWS Secrets Manager 作為最佳實踐。請參閱使用 AWS Secrets Manager 檢索用於連接到 Amazon Redshift 的憑據舉個例子。
-
我們建議您傳遞具有 Amazon Redshift 身份驗證
aws_iam_role
參數參數的IAM角色。 -
參數
tempformat
目前不支援 Parquet 格式。 -
這些
tempdir
URI指向 Amazon S3 位置。此暫時目錄不會自動清理,因此可能會增加額外的費用。 -
請考慮下列針對 Amazon Redshift 的建議:
-
建議您封鎖對 Amazon Redshift 叢集的公開存取。
-
建議您開啟 Amazon Redshift 稽核日誌。
-
建議您開啟 Amazon Redshift 靜態加密。
-
-
請考慮下列針對 Amazon S3 的建議:
-
建議您使用 Amazon S3 伺服器端加密來加密所用的 S3 儲存貯體。
-
建議您使用 Amazon S3 生命週期政策來定義 Amazon S3 儲存貯體的保留規則。
-
Amazon EMR 一律會驗證從開放原始碼匯入映像的程式碼。出於安全考慮,我們不支援下列從 Spark 到 Amazon S3 的身分驗證方法:
-
設定 AWS
hadoop-env
組態分類中的存取金鑰 -
編碼 AWS 存取金鑰
tempdir
URI
-
如需有關使用連接器及其支援參數的詳細資訊,請參閱下列資源:
-
《Amazon Redshift 管理指南》中的 Apache Spark 的 Amazon Redshift 整合
-
Github 上的
spark-redshift
社群儲存庫