本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
下表详细说明了每个数据存储的 AWS Glue 连接所支持的 Python 属性。
Amazon Redshift 连接参数
与亚马逊 Redshift 的连接支持以下 Python AWS Glue 连接参数。
键 | 类型 | 描述 | 约束 | 必需 |
---|---|---|---|---|
auto_create |
类型:boolean |
表示如果用户不存在,是否应创建该用户。默认值为 false 。 |
true , false |
否 |
aws_secret_arn |
类型:string |
用于检索连接附加参数的密文 ARN。 | 有效 ARN | 否 |
cluster_identifier |
类型:string - maxLength: 63 |
Amazon Redshift 集群的集群标识符。 | ^(?!.*—)[a-z][a-z0-9-]{0,61}[a-z0-9]$ | 否 |
database |
类型:string - maxLength: 127 |
要连接的数据库的名称。 | 否 | |
database_metadata_current_db_only |
类型:boolean |
表示应用程序是否支持多数据库数据共享目录。默认为 true ,表示应用程序不支持多数据库数据共享目录,以实现向后兼容。 |
true , false |
否 |
db_groups |
类型:string |
以逗号分隔的列表,包含 db_user 在当前会话中加入的现有数据库组名称。 |
否 | |
db_user |
类型:string |
用于 Amazon Redshift 的用户 ID。 | 否 | |
host |
类型:string - maxLength: 256 |
Amazon Redshift 集群的主机名。 | 否 | |
iam |
类型:boolean |
用于启用或禁用连接的基于 IAM 的身份验证的标志。默认值为 false 。 |
true , false |
否 |
iam_disable_cache |
类型:boolean |
此选项指定是否缓存 IAM 凭证。默认值为 true 。当对 API 网关的请求受到限制时,这样可以提高性能。 |
true , false |
否 |
max_prepared_statements |
类型:integer |
可同时打开的已准备报表的最大数量。 | 否 | |
numeric_to_float |
小数到浮点数 | 指定是否将 NUMERIC 数据类型值转换为十进制。默认情况下,NUMERIC 值以 decimal.Decimal Python 对象的形式接收。由于结果可能被四舍五入,因此不建议偏好高精度的使用场景启用此选项。在启用此选项之前,请参考有关 decimal.Decimal decimal.Decimal 和 float 之间的权衡。默认值为 false 。 |
true , false |
否 |
port |
类型:integer |
Amazon Redshift 集群的端口号。 | 范围 1150-65535 | 否 |
profile |
类型:string - maxLength: 256 |
包含 AWS CLI使用的凭证和设置的配置文件名称。 | 否 | |
region |
类型:string |
集群所在的 AWS 区域。 | 有效 AWS 区域 | 否 |
serverless_acct_id |
类型:string - maxLength: 256 |
与 Amazon Redshift 无服务器资源关联的 AWS 账户 ID。 | 否 | |
serverless_work_group |
类型:string - maxLength: 256 |
Amazon Redshift Serverless 端点工作组的名称。 | 否 | |
ssl |
类型:boolean |
true (如果已启用 SSL)。 |
true , false |
否 |
ssl_mode |
类型:枚举[verify-ca , verify-full , null]) |
连接到 Amazon Redshift 的安全性。verify-ca (必须使用 SSL 并验证服务器证书)和 verify-full (必须使用 SSL。必须验证服务器证书,服务器主机名必须与证书上的主机名属性一致)。有关更多信息,请参阅 Amazon Redshift 文档中的为连接配置安全选项。默认值为 verify-ca 。 |
verify-ca , verify-full |
否 |
timeout |
类型:integer |
连接服务器时发生超时前等待的秒数。 | 0 | 否 |
Athena 连接参数
与 Athena 的连接支持以下 Python AWS Glue 连接参数。
键 | 类型 | 描述 | 约束 | 必需 |
---|---|---|---|---|
aws_access_key_id |
类型:string - maxLength: 256 |
指定与 IAM 账户关联的 AWS 访问密钥。我们建议将此信息存储在 aws_secret 中。 |
长度 16-128 | 否 |
aws_secret_access_key |
类型:string - maxLength: 256 |
AWS 访问密钥的秘密部分。我们建议将此信息存储在 aws_secret 中。 |
否 | |
aws_secret_arn |
类型:string |
用于检索连接附加参数的密文 ARN。 | 有效 ARN | 否 |
catalog_name |
类型:string - maxLength: 256 |
目录,其中包含使用驱动程序访问的数据库和表。有关目录的信息,请参见DataCatalog。 | 否 | |
duration_seconds |
类型:number |
角色会话的持续时间(以秒为单位)。该设置可以具有 1 小时到 12 小时之间的值。默认情况下,持续时间设置为 3600 秒(1 小时)。 | 范围从 900 秒(15 分钟)到角色的最大会话持续时间设置 | 否 |
encryption_option |
类型:枚举[SSE_S3 , SSE_KMS , CSE_KMS , null]) |
Amazon S3 的静态加密。请参阅 Athena 指南中的静态加密部分。 | SSE_S3 , SSE_KMS , CSE_KMS |
否 |
kms_key |
类型:string - maxLength: 256 |
AWS KMS 如果CSE_KMS 在中使用,则按键encrytion_option 。 |
否 | |
poll_interval |
类型:number |
在 Athena 中轮询查询结果状态的间隔时间(秒)。 | 否 | |
profile_name |
类型:string - maxLength: 256 |
应使用其凭据对向 Athena 发出的请求进行身份验证的 AWS 配置文件的名称。 | 否 | |
region_name |
类型:string |
运行查询的 AWS 区域。 | 有效 AWS 区域 | 否 |
result_reuse_enable |
类型:boolean |
启用重复使用以前的查询结果。 | true , false |
否 |
result_reuse_minutes |
类型:integer |
以分钟为单位指定 Athena 应考虑的先前查询结果的重用最长使用期限。默认值为 60。 | >=1 | 否 |
role_arn |
类型:string |
用于运行查询的角色。 | 有效 ARN | 否 |
schema_name |
类型:string - maxLength: 256 |
数据库使用的默认模式名称。 | 否 | |
s3_staging_dir |
类型:string - maxLength: 1024 |
Amazon S3 中存储查询结果的位置。 | 必须使用 s3_staging_dir 或 work_group |
|
work_group |
类型:string |
将运行查询的工作组。有关工作组的信息,请参阅WorkGroup。 | ^[a-zA-Z0-9._-]{1,128}$ | 必须使用 s3_staging_dir 或 work_group |
Snowflake 连接参数
与 Snowflake 的连接支持以下 Python AWS Glue 连接参数。
Snowflake 连接参数
键 | 类型 | 描述 | 约束 | 必需 |
---|---|---|---|---|
account |
类型:string - maxLength: 256 |
Snowflake 账户标识符。账户标识符不包括 snowflakecomputing.com 后缀。 |
是 | |
arrow_number_to_decimal |
类型:boolean |
默认为 False,这意味着 NUMBER 列的值将以双精度浮点数 (float64 ) 的形式返回。设置为 True 时,在调用 fetch_pandas_all() 和 fetch_pandas_batches() 方法时,将 DECIMAL 列值返回为十进制数 (decimal.Decimal )。 |
true , false |
否 |
autocommit |
类型:boolean |
默认为 false ,这与 Snowflake 参数 AUTOCOMMIT 一致。设置为 true 或 false ,可分别启用或禁用会话中的 autocommit 模式。 |
true , false |
否 |
aws_secret_arn |
类型:string |
用于检索连接附加参数的密文 ARN。 | 有效 ARN | 否 |
client_prefetch_threads |
类型:integer |
用于下载结果集的线程数(默认为 4)。增大该值可提高提取性能,但需要更多内存。 | 否 | |
database |
类型:string - maxLength: 256 |
要使用的默认数据库名称。 | 否 | |
login_timeout |
类型:integer |
登录请求的超时(秒)。默认为 60 秒。如果 HTTP 响应不是 success ,则登录请求会在超时后终止。 |
否 | |
network_timeout |
类型:integer |
所有其他操作的超时(秒)。默认为 none (无限)。如果 HTTP 响应不是 success ,一般请求就会在超时长度后放弃。 |
否 | |
paramstyle |
类型:string - maxLength: 256 |
从 Python 代码执行 SQL 查询时用于参数替换的占位符语法。客户端绑定默认为 pyformat 。指定 qmark 或 numeric 可更改服务器端绑定的绑定变量格式。 |
否 | |
role |
类型:string - maxLength: 256 |
要使用的默认角色名称。 | 否 | |
schema |
类型:string - maxLength: 256 |
数据库使用的默认模式名称。 | 否 | |
timezone |
类型:string - maxLength: 128 |
默认为“无”,这与 Snowflake 参数 TIMEZONE 一致。设置为有效时区(如 America/Los_Angeles )以设置会话时区。 |
时区,格式类似 America/Los_Angeles |
否 |
validate_default_parameters |
类型:boolean |
设为 true ,当指定的数据库、模式或存储库不存在时会引发异常。默认值为 false 。 |
否 | |
warehouse |
类型:string - maxLength: 256 |
要使用的默认存储库名称。 | 否 |