本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
本主題包含 AWS Glue 連線屬性的相關資訊。
主題
所需連線屬性
當您在 AWS Glue 主控台上定義連線時,您必須提供下列屬性的值:
- 連線名稱
-
輸入您的連線的不重複名稱。
- 連線類型
-
選擇 JDBC 或其中一種特定的連線類型。
如需有關 JDBC 連線類型的詳細資訊,請參閱 AWS Glue JDBC 連線屬性
選擇 Network (網路) 連接到 Amazon Virtual Private Cloud 環境 (Amazon VPC) 內的資料來源。
視您選擇的類型而定, AWS Glue 主控台會顯示其他必要的欄位。例如,如果您選擇 Amazon RDS,那麼您就必須選擇資料庫引擎。
- 需要 SSL 連線
-
當您選取此選項時, AWS Glue 必須驗證與資料存放區的連線是否透過信任的安全通訊端層 (SSL) 連接。
如需詳細資訊,包含在您選擇此選項時可用的額外選項,請參閱 AWS Glue SSL 連線屬性。
- 選取 MSK 叢集 (僅限 Amazon Managed Streaming for Apache Kafka (MSK))
-
從另一個 AWS 帳戶指定 MSK 叢集。
- Kafka 引導伺服器 URL (僅限 Kafka)
-
指定以逗號分隔的引導伺服 URL 清單。請加上連接埠號碼。例如:b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-2.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-3.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
AWS Glue JDBC 連線屬性
AWS Glue Studio 現在會為 MySQL、Oracle、PostgresSQL、Redshift 和 SQL Server 資料來源建立統一連線,這需要額外的步驟才能存取 Secrets Manager 和 VPC 資源,這可能會產生額外費用。您可以選擇個別連線的連線名稱, AWS Glue Studio 在 中存取這些連線。
如需詳細資訊,請參閱考量事項。
AWS Glue 可以透過 JDBC 連線連線至下列資料存放區:
-
Amazon Redshift
-
Amazon Aurora
-
Microsoft SQL Server
-
MySQL
-
Oracle
-
PostgreSQL
-
Snowflake,使用 AWS Glue 爬蟲程式時。
-
Aurora (如果正在使用原生 JDBC 驅動程式則支援。並非所有驅動程式功能都可用)
-
Amazon RDS for MariaDB
重要
目前,ETL 任務只能使用一個子網路中的 JDBC 連線。如果您的任務中有多個資料存放區,它們必須位於同一個子網路,或者可從該子網路存取。
如果您選擇為 AWS Glue 爬蟲程式引入自己的 JDBC 驅動程式版本,您的爬蟲程式將消耗任務和 Amazon S3 中的 AWS Glue 資源,以確保您提供的驅動程式在您的環境中執行。帳戶中將反映資源的額外使用量。此外,提供您的 JDBC 驅動程式,並不代表爬蟲程式能夠運用驅動程式的所有功能。驅動程式僅限於在資料型錄中定義連線中所述的屬性。
下列是 JDBC 連線類型的額外屬性。
- JDBC URL
-
輸入您的 JDBC 資料存放區的 URL。對於大多數資料庫引擎而言,此欄位為以下格式。在此格式中,將
protocol
、host
、port
和db_name
替換為您自己的資訊。jdbc:
protocol
://host
:port
/db_name
依據資料庫引擎而定,可能需要不同的 JDBC URL 格式。此格式在使用冒號 (:) 和斜線 (/) 或不同關鍵字以指定資料庫方面,可以稍有不同。
如果是 JDBC 要連接到資料存放區,需要資料存放區中的
db_name
。db_name
用於搭配username
與password
來建立網路連線。連線時, AWS Glue 可以存取資料存放區中的其他資料庫,以執行爬蟲程式或執行 ETL 任務。以下 JDBC URL 範例顯示多種資料庫引擎的語法。
-
若要連接到具有
dev
資料庫的 Amazon Redshift 叢集資料存放區:jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev
-
若要連接到具有
employee
資料庫的 Amazon RDS for MySQL 資料存放區:jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/employee
-
若要連接到具有
employee
資料庫的 Amazon RDS for PostgreSQL 資料存放區:jdbc:postgresql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/employee
-
若要連接到具有
employee
服務名稱的 Amazon RDS for Oracle 資料存放區:jdbc:oracle:thin://@xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1521/employee
Amazon RDS for Oracle 的語法可依照下列模式。在這些模式中,使用您自己的資訊取代
host
、port
、service_name
和SID
。-
jdbc:oracle:thin://@
host
:port
/service_name
-
jdbc:oracle:thin://@
host
:port
:SID
-
-
若要連接到具有
employee
資料庫的 Amazon RDS for Microsoft SQL Server 資料存放區:jdbc:sqlserver://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1433;databaseName=employee
Amazon RDS for SQL Server 的語法可依照下列模式。在這些模式中,使用您自己的資訊取代
server_name
、port
和db_name
。-
jdbc:sqlserver://
server_name
:port
;database=db_name
-
jdbc:sqlserver://
server_name
:port
;databaseName=db_name
-
-
若要連線至
employee
資料庫的 Amazon Aurora PostgreSQL 執行個體,請指定資料庫執行個體的端點、連接埠和資料庫名稱:jdbc:postgresql://employee_instance_1.
xxxxxxxxxxxx
.us-east-2.rds.amazonaws.com:5432/employee -
若要使用
employee
資料庫連線至 Amazon RDS for MariaDB 資料存放區,請指定資料庫執行個體的端點、連接埠和資料庫名稱:jdbc:mysql://
xxx
-cluster.cluster-xxx
.aws-region
.rds.amazonaws.com:3306/employee -
警告
只有 AWS Glue 爬蟲程式支援 Snowflake JDBC 連線。在 AWS Glue 任務中使用 Snowflake 連接器時,請使用 Snowflake 連線類型。
若要連線到
sample
資料庫中的 Snowflake 執行個體,請指定 Snowflake 執行個體的端點、使用者、資料庫名稱和角色名稱。您可以選擇是否新增warehouse
參數。jdbc:snowflake://
account_name
.snowflakecomputing.com/?user=user_name
&db=sample&role=role_name
&warehouse=warehouse_name
重要
對於透過 JDBC 實現的 Snowflake 連線,會強制執行 URL 中的參數順序,且必須按
user
、db
、role_name
和warehouse
排序參數。 -
若要使用 AWS 私有連結連線至
sample
資料庫的 Snowflake 執行個體,請指定 snowflake JDBC URL,如下所示:jdbc:snowflake://
account_name
.region
.privatelink.snowflakecomputing.com/?user=user_name
&db=sample&role=role_name
&warehouse=warehouse_name
-
- 使用者名稱
-
注意
我們建議您使用 AWS 秘密來存放連線憑證,而不是直接提供您的使用者名稱和密碼。如需詳細資訊,請參閱在 中存放連線登入資料 AWS Secrets Manager。
提供有 JDBC 資料存放區存取許可的使用者名稱。
- 密碼
-
輸入提供有 JDBC 資料存放區存取許可的使用者名稱之密碼。
- 連線埠
-
輸入在 JDBC URL 中使用的連接埠,以連線至 Amazon RDS Oracle 執行個體。此欄位只有在針對 Amazon RDS Oracle 執行個體選取了 Require SSL connection (需要 SSL 連線) 時才會顯示。
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
重要
在託管的 JDBC 連線上工作時 AWS,例如使用來自 Snowflake 的資料時,VPC 應該有一個 NAT 閘道,將流量分割為公有和私有子網路。公有子網路用於外部來源的連線,而內部子網路則用於 的處理 AWS Glue。如需有關為外部連線設定 Amazon VPC 的資訊,請參閱使用 NAT 裝置連線至網際網路或其他網路和 從 設定 Amazon VPC 以用於 Amazon RDS 資料存放區的 JDBC 連線 AWS Glue。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
- JDBC 驅動程式類別名稱:選用
-
提供自訂 JDBC 驅動程式類別名稱:
-
Postgres – org.postgresql.Driver
-
MySQL – com.mysql.jdbc.Driver、com.mysql.cj.jdbc.Driver
-
Redshift – com.amazon.redshift.jdbc.Driver、com.amazon.redshift.jdbc42.Driver
-
Oracle – oracle.jdbc.driver.OracleDriver
-
SQL Server – com.microsoft.sqlserver.jdbc.SQLServerDriver
-
- JDBC 驅動程式 S3 路徑:選用
-
將 Amazon S3 位置提供給自訂 JDBC 驅動程式。這是 .jar 檔案的絕對路徑。如果您想要提供自己的 JDBC 驅動程式,以連線至爬蟲程式支援之資料庫的資料來源,您可以為參數
customJdbcDriverS3Path
和customJdbcDriverClassName
指定值。 使用客戶提供的 JDBC 驅動程式僅限於所需的 所需連線屬性。
AWS Glue MongoDB 和 MongoDB Atlas 連線屬性
下列是 MongoDB 或 MongoDB Atlas 連線類型的額外屬性。
- MongoDB URL
-
輸入您的 MongoDB 或 MongoDB Atlas 資料存放區的網址:
若是 MongoDB︰mongodb://host:port/database。主機可以是主機名稱、IP 地址或 UNIX 域通訊端。如果連接字串沒有指定連接埠,則會使用預設的 MongoDB 連接埠 27017。
若是 MongoDB Atlas:mongodb+srv://server.example.com/database。主機可以是遵循對應於 DNS SRV 記錄的主機名稱。SRV 格式不需要連接埠,而且會使用預設的 MongoDB 連接埠 27017。
- 使用者名稱
-
注意
我們建議您使用 AWS 秘密來存放連線憑證,而不是直接提供您的使用者名稱和密碼。如需詳細資訊,請參閱在 中存放連線登入資料 AWS Secrets Manager。
提供有 JDBC 資料存放區存取許可的使用者名稱。
- 密碼
-
輸入提供有 MongoDB 或 MongoDB Atlas 資料存放區存取許可的使用者名稱之密碼。
Salesforce 連線屬性
以下是 Salesforce 連線類型的其他屬性。
ENTITY_NAME
(字串) - (必要) 用於讀取/寫入。Salesforce 中物件的名稱。API_VERSION
(字串) - (必要) 用於讀取/寫入。您想要使用的 Salesforce Rest API 版本。SELECTED_FIELDS
(List<String>) - 預設: empty(SELECT *)。用於讀取。您要為物件選取的資料欄。FILTER_PREDICATE
(字串) - 預設:空白。用於讀取。它應該是 Spark SQL 格式。QUERY
(字串) - 預設:空白。用於讀取。完整 Spark SQL 查詢。PARTITION_FIELD
(字串) - 用於讀取。用於分割查詢的欄位。LOWER_BOUND
(字串) - 用於讀取。所選分割區欄位的包含下限值。UPPER_BOUND
(字串) - 用於讀取。所選分割區欄位的專屬上限值。NUM_PARTITIONS
(整數) - 預設:1。用於讀取。要讀取的分割區數量。IMPORT_DELETED_RECORDS
(字串) - 預設:FALSE。用於讀取。在查詢時取得刪除記錄。WRITE_OPERATION
(字串) - 預設:INSERT。用於寫入。值應為 INSERT、UPDATE、UPSERT、DELETE。ID_FIELD_NAMES
(字串) - 預設 : null。僅用於 UPSERT。
Snowflake 連線
下列屬性用於設定 AWS Glue ETL 任務中使用的 Snowflake 連線。對 Snowflake 進行網路爬取時,請使用 JDBC 連線。
- Snowflake URL
-
Snowflake 端點的 URL。如需有關 Snowflake 端點 URL 的詳細資訊,請參閱 Snowflake 文件中的 Connecting to Your Accounts
。 - AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的
sfUser
和sfPassword
金鑰連線到 Snowflake。- Snowflake 角色 (選用)
連線時 AWS Glue 將使用 Snowflake 安全角色。
使用 AWS PrivateLink設定與 Amazon VPC 中託管的 Snowflake 端點的連線時,請使用下列屬性。
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
Vertica 連線
使用下列屬性來設定 AWS Glue ETL 任務的 Vertica 連線。
- Vertica 主機
Vertica 安裝的主機名稱。
- Vertica 連接埠
您可透過該連接埠安裝 Vertica。
- AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 Vertica。
設定連至 Amazon VPC 中託管之 Vertica 端點的連線時,請使用下列屬性。
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
SAP HANA 連線
使用下列屬性來設定 AWS Glue ETL 任務的 SAP HANA 連線。
- SAP HANA URL
SAP JDBC URL。
SAP HANA JDBC URL 會採用的格式為
jdbc:sap://
saphanaHostname
:saphanaPort
/?databaseName
=saphanaDBname
,ParameterName
=ParameterValue
AWS Glue 需要下列 JDBC URL 參數:
databaseName
:要連線之 SAP HANA 的預設資料庫。
- AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 SAP HANA。
設定連至 Amazon VPC 中託管之 SAP HANA 端點的連線時,請使用下列屬性:
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
Azure SQL 連線
使用下列屬性來設定 AWS Glue ETL 任務的 Azure SQL 連線。
- Azure SQL URL
Azure SQL 端點的 JDBC URL。
此 URL 必須採用下列格式:
jdbc:sqlserver://
。databaseServerName
:databasePort
;databaseName=azuresqlDBname
;AWS Glue 需要下列 URL 屬性:
databaseName
:要連線之 Azure SQL 的預設資料庫。
如需有關 Azure SQL 受控執行個體之 JDBC URL 的詳細資訊,請參閱 Microsoft 文件
。 - AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 Azure SQL。
Teradata Vantage 連線
使用下列屬性來設定 AWS Glue ETL 任務的 Teradata Vantage 連線。
- Teradata URL
若要連線至 Teradata 執行個體,請指定資料庫執行個體的主機名稱和相關的 Teradata 參數:
jdbc:teradata://
.teradataHostname
/ParameterName
=ParameterValue
,ParameterName
=ParameterValue
AWS Glue 支援下列 JDBC URL 參數:
DATABASE_NAME
:要連線之 Teradata 的預設資料庫。DBS_PORT
:指定 Teradata 連接埠 (如果非標準)。
- AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 Teradata Vantage。
設定連至 Amazon VPC 中託管之 Teradata Vantage 端點的連線時,請使用下列屬性:
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
OpenSearch Service 連線
使用下列屬性來設定 AWS Glue ETL 任務的 OpenSearch Service 連線。
- 網域端點
Amazon OpenSearch Service 網域端點將會顯示下列預設格式:https://search-
domainName
-unstructuredIdContent
.region
.es.amazonaws.com。如需有關識別網域端點的詳細資訊,請參閱《Amazon OpenSearch Service 文件》中的建立和管理 Amazon OpenSearch Service 網域。- 連線埠
端點上開啟的連接埠。
- AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 OpenSearch Service。
設定連至 Amazon VPC 中託管之 OpenSearch Service 端點的連線時,請使用下列屬性:
- VPC
-
選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。 AWS Glue 主控台會列出目前區域的所有 VPCs。
- 子網路
-
選擇 VPC 中包含您的資料存放區的子網路。 AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。
- 安全群組
-
選擇與您資料存放區相關聯的安全群組。 AWS Glue 需要一或多個安全群組,其中包含允許 AWS Glue 連線的傳入來源規則。 AWS Glue 主控台會列出授予 VPC 傳入存取權的所有安全群組。將這些安全群組與連接到 VPC 子網路的彈性網路介面建立 AWS Glue 關聯。
Azure Cosmos 連線
使用下列屬性來設定 AWS Glue ETL 任務的 Azure Cosmos 連線。
- Azure Cosmos DB 帳戶端點 URI
-
用來連線至 Azure Cosmos 的端點。如需詳細資訊,請參閱 Azure 文件
。 - AWS 秘密
中秘密的秘密名稱 AWS Secrets Manager。 AWS Glue 將使用秘密的金鑰連線至 Azure Cosmos。
AWS Glue SSL 連線屬性
以下是 Require SSL connection (需要 SSL 連線) 屬性的相關詳細資訊。
如果您不需要 SSL 連線,當使用 SSL 加密與資料存放區的連線時, 會 AWS Glue 忽略失敗。請參閱適用於您資料存放區的文件以取得組態說明。當您選取此選項時,如果 AWS Glue 無法連線,開發端點中的任務執行、爬蟲程式或 ETL 陳述式即失敗。
注意
Snowflake 依預設支援 SSL 連線,因此此屬性不適用於 Snowflake。
此選項會在 AWS Glue 用戶端進行驗證。對於 JDBC 連線, AWS Glue 只會透過 SSL 與憑證和主機名稱驗證進行連線。SSL 連線支援適用於:
-
Oracle Database
-
Microsoft SQL Server
-
PostgreSQL
-
Amazon Redshift
-
MySQL (僅限 Amazon RDS 執行個體)
-
Amazon Aurora MySQL (僅限 Amazon RDS 執行個體)
-
Amazon Aurora PostgreSQL (僅限 Amazon RDS 執行個體)
-
Kafka,其中包括 Amazon Managed Streaming for Apache Kafka
-
MongoDB
注意
若要啟用 Amazon RDS Oracle 資料存放區以使用 Require SSL connection (需要 SSL 連線),您必須建立並連接選項群組至 Oracle 執行個體。
登入 AWS Management Console ,並在 https://console.aws.amazon.com/rds/
:// 開啟 Amazon RDS 主控台。 -
新增 Option group (選項群組) 至 Amazon RDS Oracle 執行個體。如需有關如何在 Amazon RDS 主控台新增選項群組的詳細資訊,請參閱建立選項群組。
-
將 Option (選項) 新增至 SSL 選項群組。您為 SSL 指定的連接埠稍後會在您為 Amazon RDS Oracle 執行個體建立 AWS Glue JDBC 連線 URL 時使用。如需有關如何在 Amazon RDS 主控台新增選項的詳細資訊,請參閱 Amazon RDS 使用者指南中的將選項新增至選項群組。如需 Oracle SSL 選項的詳細資訊,請參閱 Amazon RDS 使用者指南中的 Oracle SSL。
-
在 AWS Glue 主控台上,建立 Amazon RDS Oracle 執行個體的連線。在連線定義中,選擇 Require SSL connection (需要 SSL 連線)。根據要求,輸入您在 Amazon RDS Oracle SSL 選項中使用的 Port (連接埠)。
如果針對連線選取 Require SSL connection (需要 SSL 連線),下列其他選用屬性即為可用。
- 在 S3 中自訂 JDBC 憑證
-
如果您有目前用於與內部部署或雲端資料庫進行 SSL 通訊的憑證,您可以使用該憑證進行 AWS Glue 資料來源或目標的 SSL 連線。輸入包含自訂根憑證的 Amazon Simple Storage Service (Amazon S3) 位置。 AWS Glue 使用此憑證建立與資料庫的 SSL 連線。僅 AWS Glue 處理 X.509 憑證。憑證必須為 DER 編碼,並以 base64 編碼 PEM 格式提供。
如果此欄位保留空白,將會使用預設憑證。
- 自訂 JDBC 憑證字串
-
輸入 JDBC 資料庫特定的憑證資訊。這是網域比對或辨別名稱 (DN) 比對使用的字串。若為 Oracle 資料庫,此字串會映射到
tnsnames.ora
檔案安全區段中的SSL_SERVER_CERT_DN
參數。若為 Microsoft SQL Server,此字串會做為hostNameInCertificate
使用。以下是 Oracle 資料庫
SSL_SERVER_CERT_DN
參數的範例。cn=sales,cn=OracleContext,dc=us,dc=example,dc=com
- Kafka 私有 CA 憑證位置
-
如果您有目前用於與 Kafka 資料存放區進行 SSL 通訊的憑證,您可以將該憑證與 AWS Glue 連線搭配使用。Kafka 資料存放區需要此選項,資料 Amazon Managed Streaming for Apache Kafka 存放區則為選用。輸入包含自訂根憑證的 Amazon Simple Storage Service (Amazon S3) 位置。 AWS Glue 使用此憑證來建立與 Kafka 資料存放區的 SSL 連線。僅 AWS Glue 處理 X.509 憑證。憑證必須為 DER 編碼,並以 base64 編碼 PEM 格式提供。
- 略過憑證驗證
-
選取略過憑證驗證核取方塊,略過驗證自訂憑證 AWS Glue。如果您選擇驗證, 會 AWS Glue 驗證憑證的簽章演算法和主體公有金鑰演算法。如果憑證驗證失敗,使用該連線的任何 ETL 任務或爬蟲程式都會失敗。
允許的簽章演算法僅限 SHA256withRSA、SHA384withRSA 或 SHA512withRSA。針對主體公開金鑰演算法,金鑰長度必須至少為 2048。
- Kafka 用戶端金鑰存放區位置
-
用於 Kafka 用戶端身分驗證的用戶端金鑰存放區檔案的 Amazon S3 位置。路徑的格式必須為 s3://bucket/prefix/filename.jks。其檔案名稱結尾必須是 .jks 副檔名。
- Kafka 用戶端金鑰存放區密碼 (選用)
-
存取提供的金鑰存放區的密碼。
- Kafka 用戶端金鑰密碼 (選用)
-
金鑰存放區可以由多個金鑰組成,所以這是用來存取用於 Kafka 伺服器端金鑰之用戶端金鑰的密碼。
用於用戶端驗證的 Apache Kafka 連線屬性
AWS Glue 當您建立 Apache Kafka 連線時, 支援用於身分驗證的 Simple Authentication and Security Layer (SASL) 架構。SASL 架構支援各種身分驗證機制,並提供 AWS Glue SCRAM (使用者名稱和密碼)、GSSAPI (Kerberos 通訊協定) 和 PLAIN 通訊協定。
使用 AWS Glue Studio 設定下列其中一個用戶端身分驗證方法。如需詳細資訊,請參閱 AWS Glue Studio 《 使用者指南》中的建立連接器的連線。
-
無 - 無身分驗證。如果為進行測試而建立連線,此方法會很有用。
-
SASL/SCRAM-SHA-512 - 選擇此身分驗證方法將允許您指定身分驗證憑證。有兩種可用選項:
-
使用 AWS Secrets Manager (建議) - 如果您選取此選項,您可以將使用者名稱和密碼存放在 AWS Secrets Manager 中,並在需要時允許 AWS Glue 存取它們。指定存放 SSL 或 SASL 驗證憑證的秘密。如需詳細資訊,請參閱 在 中存放連線登入資料 AWS Secrets Manager。
-
請直接提供使用者名稱和密碼。
-
-
SASL/GSSAPI (Kerberos) - 如果您選取此選項,則可以選取 keytab 檔案和 krb5.conf 檔案的位置,然後輸入 Kerberos 主體名稱和 Kerberos 服務名稱。keytab 檔案和 krb5.conf 檔案的位置必須位於 Amazon S3 位置。由於 MSK 尚不支援 SASL/GSSAPI,此選項僅適用於客戶受管的 Apache Kafka 叢集。如需詳細資訊,請參閱 MIT Kerberos 文件:Keytab
。 -
SASL/PLAIN - 選擇此身分驗證方法以指定身分驗證憑證。有兩種可用選項:
使用 AWS Secrets Manager (建議) - 如果您選取此選項,您可以將登入資料存放在 AWS Secrets Manager 中,並在需要時讓 AWS Glue 存取資訊。指定存放 SSL 或 SASL 驗證憑證的秘密。
直接提供使用者名稱和密碼。
-
SSL 用戶端身分驗證 - 如果您選取此選項,則可以透過瀏覽 Amazon S3 來選取 Kafka 用戶端金鑰存放區的位置。或者,您可以輸入 Kafka 用戶端金鑰存放區密碼和 Kafka 用戶端金鑰密碼。
Google BigQuery 連線
下列屬性用於設定 AWS Glue ETL 任務中使用的 Google BigQuery 連線。如需詳細資訊,請參閱BigQuery 連線。
- AWS 秘密
-
in AWS Secrets Manager. AWS Glue ETL 任務中秘密的秘密名稱將使用秘密的
credentials
金鑰連線至 Google BigQuery。
Vertica 連線
下列屬性用於設定 AWS Glue ETL 任務中使用的 Vertica 連線。如需詳細資訊,請參閱Vertica 連線。