发布说明
按发布日期描述 Amazon Athena 功能、改进和错误修复。
2024 年 Athena 发布说明
2024 年 10 月 30 日
发布时间:2024 年 10 月 30 日
Athena 发布了 JDBC 驱动程序版本 3.3.0。有关此驱动程序版本的更多信息,请参阅 Amazon Athena JDBC 3.x 发布说明。要下载 JDBC 3.x 驱动程序,请参阅 JDBC 3.x 驱动程序下载。
2024 年 8 月 23 日
发布时间:2024 年 9 月 5 日
Athena 宣布推出以下更新:
-
使用传递查询以查询联合视图:视图现已支持联合传递查询。有关更多信息,请参阅 查询联合视图。
-
多个传递查询:您现在可以在同一个查询执行中运行多个联合传递查询。有关更多信息,请参阅 使用联合传递查询。
-
Iceberg 表的 OPTIMIZE 修复:修复了在重写具有相关删除文件的数据文件时,在 Iceberg 表上运行
OPTIMIZE
后系统不会删除“删除”文件的问题。有关更多信息,请参阅 OPTIMIZE。 -
Parquet LZ4 和 LZO 写入支持:Athena 不再支持写入以 LZ4 或 LZO 格式压缩的 Parquet 文件。我们仍然支持读取这些压缩格式。有关 Athena 中压缩格式的更多信息,请参阅在 Athena 中使用压缩。
2024 年 7 月 29 日
发布时间:2024 年 7 月 29 日
Athena 发布了 JDBC 驱动程序版本 3.2.2。有关此驱动程序版本的更多信息,请参阅 Amazon Athena JDBC 3.x 发布说明。要下载 JDBC 3.x 驱动程序,请参阅 JDBC 3.x 驱动程序下载。
2024 年 7 月 26 日
发布时间:2024 年 8 月 1 日
Athena 宣布推出以下改进。
-
Delta Lake 表删除向量支持:Athena 现在支持使用删除向量
从 Delta Lake 表中读取数据。有关更多信息,请参阅 查询 Linux Foundation Delta Lake 表。
2024 年 7 月 3 日
发布时间:2024 年 7 月 3 日
Athena 发布了 JDBC 驱动程序版本 3.2.1。有关此驱动程序版本的更多信息,请参阅 Amazon Athena JDBC 3.x 发布说明。要下载 JDBC 3.x 驱动程序,请参阅 JDBC 3.x 驱动程序下载。
2024 年 6 月 26 日
发布时间:2024 年 6 月 26 日
目前,南美洲(圣保罗)和欧洲(西班牙)地区普遍提供了预置容量。预置容量允许您在完全管理的计算容量上运行 SQL 查询,并提供工作负载管理功能,帮助您优化、控制和扩展最重要的交互式工作负载。您可以随时添加容量以增加可并发运行的查询数量,控制可以使用容量的工作负载,并在工作负载之间共享容量。
有关更多信息,请参阅 管理查询处理容量。有关定价信息,请访问 Amazon Athena 定价
2024 年 5 月 10 日
发布时间:2024 年 7 月 15 日
Athena 发布了以下功能和改进功能。
-
Delta Lake – Athena 添加了优化来从检查点文件中筛选出不需要的条目。这些优化显著提高了具有引用许多 Parquet 数据文件的大型检查点文件的查询的性能。
有关在 Athena 中使用 Linux Foundation Delta Lake 表的信息,请参阅 查询 Linux Foundation Delta Lake 表。
2024 年 4 月 26 日
发布时间:2024 年 4 月 26 日
Athena 发布了 JDBC 驱动程序版本 3.2.0。有关此驱动程序版本的更多信息,请参阅 Amazon Athena JDBC 3.x 发布说明。要下载 JDBC 3.x 驱动程序,请参阅 JDBC 3.x 驱动程序下载。
2024 年 4 月 24 日
发布时间:2024 年 4 月 24 日
Athena 宣布推出以下修复和改进。
-
Parquet – Athena 现在在 Parquet 中支持对不包含在列表或地图组中的未注释重复基元字段进行向后兼容读取。此更改可防止返回无提示的错误结果,并改进架构不匹配的错误消息传递。
有关更多信息,请参阅 GitHub.com 上的在 Parquet 中支持对未注释重复基元字段进行向后兼容读取
。 -
Iceberg OPTIMIZE – 解决了在
WHERE
子句中使用非分区键筛选器时导致数据丢失的OPTIMIZE
查询问题。有关更多信息,请参阅 OPTIMIZE。
2024 年 4 月 16 日
发布时间:2024 年 4 月 16 日
使用新推出的 Amazon Athena 联合查询传递功能,可直接在底层数据来源上运行全部查询。联合传递查询有助于充分利用原始数据来源的独特函数、查询语言和性能。例如,可以使用 PartiQL 语言在 DynamoDB 上运行 Athena 查询。若要运行 SELECT
查询(这些查询可聚合、联接或调用 Athena 中不可用的数据来源函数),也可以使用联合传递查询。使用传递查询可以减少 Athena 处理的数据量,从而缩短查询时间。
有关更多信息,请参阅 使用联合传递查询。要将当前使用的连接器升级到最新版本,请参阅 更新数据来源连接器。
2024 年 4 月 10 日
发布时间:2024 年 4 月 10 日
Athena 发布了以下功能和改进功能。
ODBC 1.2.3.1000 驱动程序
发布了适用于 Athena 的 ODBC 1.2.3.1000 驱动程序。
已解决的问题:
-
代理服务器连接问题 – 在无根证书的情况下使用代理服务器时,连接器无法建立连接。
有关更多信息以及下载 ODBC 1.x 驱动程序、发布说明和文档,请参阅 Athena ODBC 1.x 驱动程序。
JDBC 2.1.5 驱动程序
发布了适用于 Athena 的 JBDC 2.1.5 驱动程序。
更新与增强功能:
-
已将 AWS Java SDK 更新到版本 1.12.687。
-
已将 Jackson 库更新到版本 2.16.0。
-
已将 Logback 库更新到版本 1.3.14。
有关更多信息以及下载 JDBC 2.x 驱动程序、发布说明和文档,请参阅 Athena JDBC 2.x 驱动程序。
2024 年 4 月 8 日
发布时间:2024 年 4 月 8 日
Athena 宣布推出 ODBC 驱动程序版本 2.0.3.0。有关更多信息,请参阅 2.0.3.0 版本注释。要下载新的 ODBC 版本 2 驱动程序,请参阅 ODBC 2.x 驱动程序下载。有关连接信息,请参阅Amazon Athena ODBC 2.x。
2024 年 3 月 15 日
发布时间:2024 年 3 月 18 日
Amazon Athena 宣布在加拿大西部(卡尔加里)区域推出 Athena SQL。
有关每个 AWS 区域 提供的 AWS 服务 的完整列表,请参阅按区域划分的 AWS 服务
2024 年 2 月 15 日
发布时间:2024 年 2 月 15 日
Athena 发布了 JDBC 驱动程序版本 3.1.0。
Amazon Athena JDBC 驱动程序版本 3.1.0 添加了对 Microsoft Active Directory 联合身份验证服务(AD FS)Windows 集成式身份验证和基于表单的身份验证的支持。3.1.0 版本还包含其他细微改进以及错误修复。
要下载 JDBC 驱动程序版本 3,请参阅 JDBC 3.x 驱动程序下载。
2024 年 1 月 31 日
发布时间:2024 年 1 月 31 日
Athena 发布了以下功能和改进功能。
-
Hudi 升级 – 现在,您可以使用 Athena SQL 查询 Hudi 0.14.0 表了。有关使用 Athena SQL 查询 Hudi 表的信息,请参阅 查询 Apache Hudi 数据集。
2023 年的 Athena 发布说明
2023 年 12 月 14 日
发布时间:2023 年 12 月 14 日
Athena 宣布推出以下修复和改进。
Athena 发布了 JDBC 驱动程序版本 2.1.3。该驱动程序解决了以下问题:
-
日志记录经过改进,可以避免与 Spring Boot 和 Gradle 应用程序日志记录发生冲突。
-
在使用
executeBatch()
JDBC 方法插入记录时,该驱动程序仅错误地插入了一条记录。由于 Athena 不支持批量执行查询,因此该驱动程序现在会在您使用executeBatch()
时报告错误。要解决此限制,您可以循环提交单个查询。
要下载新的 JDBC 驱动程序、发布说明和文档,请参阅 Athena JDBC 2.x 驱动程序。
2023 年 12 月 9 日
发布时间:2023 年 12 月 9 日
为 Athena 发布了 ODBC 1.2.1.1000 驱动程序。
功能和增强功能:
-
更新了 RStudio 支持 – ODBC 驱动程序现在支持 macOS 上的 RStudio。
-
支持单个目录和架构 – 连接器现在可以返回单个目录和架构。有关更多信息,请参阅可下载的安装和配置指南。
已解决的问题:
-
预准备语句 – 当运行采用列架构且带参数数组的预准备语句时,连接器返回了错误的查询结果。
-
列大小 – 当选择
$file_modified_time
系统列时,连接器返回了错误的列大小。 -
SQLPrepare – 在
SELECT
查询中绑定与SQLPrepare
相关的参数时,连接器返回了错误。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 Athena ODBC 1.x 驱动程序。
2023 年 12 月 7 日
发布时间:2023 年 12 月 7 日
Athena 宣布推出 ODBC 驱动程序版本 2.0.2.1。有关更多信息,请参阅 2.0.2.1 版本注释。要下载新的 ODBC 版本 2 驱动程序,请参阅 ODBC 2.x 驱动程序下载。有关连接信息,请参阅Amazon Athena ODBC 2.x。
2023 年 12 月 5 日
发布时间:2023 年 12 月 5 日
现在,您可以创建采用 AWS IAM Identity Center 身份验证模式的 Athena SQL 工作组。这些工作组支持 IAM Identity Center 的可信身份传播功能。可信身份传播允许跨 AWS 分析服务(例如 Amazon Athena 和 Amazon EMR Studio)使用身份。
有关更多信息,请参阅 使用已启用 IAM Identity Center 的 Athena 工作组。
2023 年 11 月 28 日
发布时间:2023 年 11 月 28 日
您现在可以查询 Amazon S3 Express One Zone 存储类
有关更多信息,请参阅 查询 S3 Express One Zone 数据。
2023 年 11 月 27 日
发布时间:2023 年 11 月 27 日
Athena 发布了以下功能和改进功能。
-
Glue Data Catalog – Glue Data Catalog 视图跨 AWS 服务(例如 Amazon Athena 和 Amazon Redshift)提供单一通用视图。在 Glue Data Catalog 视图中,访问权限由视图的创建用户(而不是视图的查询用户)定义。这些视图提供更好的访问控制,有助于确保记录的完整性,增强安全性,并且可以防止对基础表的访问。
有关更多信息,请参阅 在 Athena 中使用 Data Catalog 视图。
-
CloudTrail Lake 支持 – 您现在可以使用 Amazon Athena 来分析 AWS CloudTrail Lake 中的数据。AWS CloudTrailLake 是 CloudTrail 的托管数据湖,用于聚合、永恒存储和分析活动日志,以进行审计、安全和运营调查。要从 Athena 查询 CloudTrail Lake 活动日志,您无需移动数据或构建单独的数据处理管道。无需 ETL 操作。
要开始使用,请在 CloudTrail Lake 中启用数据联合身份验证。当您与 AWS Glue Data Catalog 分享 CloudTrail Lake 事件数据存储元数据时,CloudTrail 会创建必要的 AWS Glue Data Catalog 资源并使用 AWS Lake Formation 注册数据。在 Lake Formation 中,您可以指定可使用 Athena 查询事件数据存储的用户和角色。
有关更多信息,请参阅《AWS CloudTrail 用户指南》中的 Enable Lake query federation。
2023 年 11 月 17 日
发布时间:2023 年 11 月 17 日
Athena 发布了以下功能和改进功能。
功能
-
成本型优化器 – Athena 宣布使用来自 AWS Glue 的统计数据全面进行基于成本的优化。要在 Athena SQL 中优化查询,您可以请求 Athena 为 AWS Glue 中的表收集表级或列级统计数据。如果查询中的所有表都有统计数据,Athena 会使用这些统计数据来检查备选执行计划,然后选择最有可能最快的执行计划。
有关更多信息,请参阅 使用成本型优化器。
-
Amazon EMR Studio 集成 – 您现在可以在 Amazon EMR Studio 中使用 Athena,而不必直接使用 Athena 控制台。利用 Amazon EMR 中的 Athena 集成,您可以执行以下任务:
-
执行 Athena SQL 查询
-
查看查询结果
-
查看查询历史记录
-
查看保存的查询
-
执行参数化查询
-
查看数据目录的数据库、表和视图
有关更多信息,请参阅 AWS 服务 与 Athena 的集成主题中的 Amazon EMR Studio。
-
-
嵌套访问控制 – Athena 宣布支持 Lake Formation 对嵌套数据的访问控制。在 Lake Formation 中,您可以对具有
struct
数据类型的嵌套列定义和应用数据筛选条件。您可以使用数据筛选功能来限制用户对嵌套列子结构的访问权限。有关如何为嵌套数据创建数据筛选条件的信息,请参阅《AWS Lake Formation Developer Guide》中的 Creating a data filter。 -
预置容量使用指标 – Athena 宣布推出新的 CloudWatch 容量预留指标。您可以使用新指标来跟踪已预置的 DPU 数量和查询所使用的 DPU 数量。查询完成后,您还可以查看查询使用的 DPU 数量。
有关更多信息,请参阅 使用 CloudWatch 监控 Athena 查询指标。
改进
-
错误消息更改 –
Insufficient Lake Formation permissions
错误消息现在显示为Table not found
或Schema not found
。进行此更改是为了防止恶意行为者从错误消息中推断出表或数据库资源的存在。
2023 年 11 月 16 日
发布时间:2023 年 11 月 16 日
Athena 发布了一个新的 JDBC 驱动程序,该驱动程序改善了连接、查询和可视化来自兼容的 SQL 开发和商业智能应用程序的数据的体验。新的驱动程序易于升级。驱动程序可以直接从 Amazon S3 读取查询结果,让您可以更快地获得查询结果。
有关更多信息,请参阅 Athena JDBC 3.x 驱动程序。
2023 年 10 月 31 日
发布时间:2023 年 10 月 31 日
Amazon Athena 宣布预置容量有 1 小时预留。从今天开始,您可以在一小时后预留和释放预置容量。这一变化使得优化需求会随时间变化的工作负载的成本变得更加简单。
预置容量是 Athena 中提供的工作负载管理功能,可帮助您优化、控制和扩展最重要的交互式工作负载。您可以随时添加容量以增加可并发运行的查询数量,控制可以使用容量的工作负载,并在工作负载之间共享容量。
有关更多信息,请参阅 管理查询处理容量。有关定价信息,请访问 Amazon Athena 定价
2023 年 10 月 25 日
发布时间:2023 年 10 月 26 日
Athena 宣布推出以下修复和改进。
jackson-core package – 数值大于 1000 个字符的 JSON 文本现在将失败。此修复解决了 sonatype-2022-6438
2023 年 10 月 17 日
发布时间:2023 年 10 月 17 日
Athena 宣布推出 ODBC 驱动程序版本 2.0.2.0。有关更多信息,请参阅 2.0.2.0 版本注释。要下载新的 ODBC 版本 2 驱动程序,请参阅 ODBC 2.x 驱动程序下载。有关连接信息,请参阅Amazon Athena ODBC 2.x。
2023 年 9 月 26 日
发布时间:2023 年 9 月 26 日
Athena 发布了以下功能和改进功能。
-
适用于 Delta Lake 表的 Lake Formation 读取支持。有关在 Athena 中使用 Delta Lake 表的更多信息,请参阅查询 Linux Foundation Delta Lake 表。
2023 年 8 月 23 日
发布时间:2023 年 8 月 23 日
Amazon Athena 宣布在以色列(特拉维夫)区域推出 Athena SQL。
有关每个 AWS 区域 提供的 AWS 服务 的完整列表,请参阅按区域划分的 AWS 服务
2023 年 8 月 10 日
发布时间:2023 年 8 月 10 日
Athena 宣布推出以下修复和改进。
ODBC 驱动程序版本 2.0.1.1
Athena 宣布推出 ODBC 驱动程序版本 2.0.1.1。有关更多信息,请参阅 2.0.1.1 版本注释。要下载新的 ODBC 版本 2 驱动程序,请参阅 ODBC 2.x 驱动程序下载。有关连接信息,请参阅Amazon Athena ODBC 2.x。
JDBC 驱动程序版本 2.1.1
Athena 发布了 JDBC 驱动程序版本 2.1.1。该驱动程序解决了以下问题:
-
使用包含正则表达式的语句创建表时发生的错误。
-
导致
ApplicationName
连接参数应用不正确的问题。
要下载新的 JDBC 驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2023 年 7 月 31 日
发布时间:2023 年 7 月 31 日
Amazon Athena 宣布在其他 AWS 区域 推出 Athena SQL。
此版本扩展了 Athena SQL 的覆盖区域,将亚太地区(海得拉巴)、亚太地区(墨尔本)、欧洲(西班牙)和欧洲(苏黎世)包括在内。
有关每个 AWS 区域 提供的 AWS 服务 的完整列表,请参阅按区域划分的 AWS 服务
2023 年 7 月 27 日
发布时间:2023 年 7 月 27 日
Athena 发布 Google BigQuery 连接器版本 2023.30.1。此版本的连接器缩短了查询执行时间,并增加了针对 BigQuery 私有端点进行查询的支持。
有关 Google BigQuery 连接器的信息,请参阅 Amazon Athena Google BigQuery 连接器。有关更新现有数据来源连接器的信息,请参阅 更新数据来源连接器。
2023 年 7 月 24 日
发布时间:2023 年 7 月 24 日
Athena 宣布推出以下修复和改进。
-
使用并集查询 - 使用并集提高了某些查询的性能。
-
使用类型比较进行联接 - 修复了包含两种不同类型比较的
JOIN
语句可能出现的查询失败问题。 -
嵌套列上的子查询 - 修复了在嵌套列上关联子查询时与查询失败有关的问题。
-
Iceberg 视图 - 修复了 Apache Iceberg 视图中时间戳列精度的兼容性问题。现在,无论列是在 Athena 引擎版本 2 还是 Athena 引擎版本 3 上创建,都可读取包含时间戳列的 Iceberg 视图。
2023 年 7 月 20 日
发布时间:2023 年 7 月 20 日
Athena 发布 JDBC 驱动程序版本 2.1.0。该驱动程序包含新的增强功能并解决了一个问题。
增强功能
以下 Jackson
-
jackson-annotations 2.15.2(以前为 2.14.0)
-
jackson-core 2.15.2(以前为 2.14.0)
-
jackson-databind 2.15.2(以前为 2.14.0)
已解决的问题
-
修复了使用 sql2o
库时传递数组参数的问题。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2023 年 7 月 13 日
发布时间:2023 年 9 月 19 日
Athena 发布了以下功能和改进功能。
-
EXPLAIN ANALYZE – 在
EXPLAIN ANALYZE
的输出中增加了对队列、分析、计划和执行时间的支持。 -
EXPLAIN – 现在,当查询包含聚合时,
EXPLAIN
输出会显示统计信息。 -
Parquet Hive SerDe – 增加了允许在读取 Parquet 数据时忽略处理统计数据的
parquet.ignore.statistics
属性。有关信息,请参阅忽略 Parque 统计数据。
有关 EXPLAIN
和 EXPLAIN ANALYZE
的更多信息,请参阅 在 Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE。有关 Parquet Hive SerDe 的更多信息,请参阅 Parquet SerDe。
2023 年 7 月 3 日
发布时间:2023 年 7 月 25 日
从 2023 年 7 月 3 日起,Athena 开始编辑 CloudTrail 日志中的查询字符串。现在,查询字符串的值为 ***OMITTED***
。进行此更改是为了防止意外泄露可能包含敏感信息的表名或筛选器值。如果您之前依赖 CloudTrail 日志来访问完整的查询字符串,我们建议您使用 Athena::GetQueryExecution
API 并从 CloudTrail 日志传入 responseElements.queryExecutionId
的值。有关更多信息,请参阅 Amazon Athena API 参考中的 GetQueryExecution。
2023 年 6 月 30 日
发布时间:2023 年 6 月 30 日
Athena 查询编辑器现在支持提前输入代码建议,以实现更快的查询创作体验。现在您可以使用以下功能,以更高的准确性和更高的效率编写 SQL 查询:
-
在您输入时,将实时显示关键字、局部变量、片段和目录项的建议。
-
当您在数据库名称或表名称后面输入一个点时,该编辑器会显示一系列的表或列,方便您从中进行选择。
-
当您将光标悬停在片段建议上时,摘要会显示该片段的语法和用法的简要概述。
-
为了提高代码的可读性,还更新了关键字及其突出显示规则,使其与 Trino 和 Hive 的最新语法保持一致。
该功能已默认启用。您可以在代码编辑器首选项设置中启用或禁用该功能。
要在 Athena 查询编辑器中试用提前输入代码建议,请访问 Athena 控制台,网址为 https://console.aws.amazon.com/athena/
2023 年 6 月 29 日
发布时间:2023 年 6 月 29 日
-
Athena 宣布推出 ODBC 驱动程序版本 2.0.1.0。有关更多信息,请参阅 2.0.1.0 版本注释。要下载新的 ODBC 版本 2 驱动程序,请参阅 ODBC 2.x 驱动程序下载。有关连接信息,请参阅Amazon Athena ODBC 2.x。
-
Athena 及其功能
现已在中东(阿联酋)区域可用。有关每个 AWS 区域 提供的 AWS 服务 的完整列表,请参阅按区域划分的 AWS 服务 。
2023 年 6 月 28 日
发布时间:2023 年 6 月 28 日
现在您可以使用 Amazon Athena 查询从 S3 Glacier Flexible Retrieval(以前称为 Glacier)和 S3 Glacier Deep Archive Amazon S3 存储类还原的对象。您可以针对每个表配置此功能。只有 Athena 引擎版本 3 上的 Apache Hive 表支持该功能。
有关更多信息,请参阅 查询还原的 Amazon S3 Glacier 对象。
2023 年 6 月 12 日
发布时间:2023 年 6 月 12 日
Athena 宣布推出以下修复和改进。
-
Parquet Reader timestamps – 增加了对 Parquet Reader
的时间戳读取 bigint
(毫秒)的支持。此更新与 Athena 引擎版本 2 中的支持相同。 -
EXPLAIN ANALYZE – 在
EXPLAIN ANALYZE
的查询统计数据和输出中增加了物理输入读取时间。有关EXPLAIN ANALYZE
的信息,请参阅在 Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE。 -
INSERT – 改进了使用
INSERT
写入的表的查询性能。有关INSERT
的信息,请参阅INSERT INTO。 -
Delta Lake 表 - 更正了 Delta Lake 表上存在的
DROP TABLE
问题,该问题导致这些表在同时修改时无法完全删除。
2023 年 6 月 8 日
发布时间:2023 年 6 月 8 日
Amazon Athena for Apache Spark 宣布推出以下新功能。
-
支持自定义 Java 库和配置 - 现在,您可以在 Athena 中为 Apache Spark 会话使用自己的 Java 包和自定义配置。使用 Spark 属性通过 Athena 控制台、AWS CLI 或 Athena API 指定
.jar
文件、包或其他自定义配置。有关更多信息,请参阅 使用 Spark 属性指定自定义配置。 -
支持 Apache Hudi、Apache Iceberg 和 Delta Lake 表 - Athena for Spark 现在支持 Apache Iceberg、Apache Hudi 和 Linux Foundation Delta Lake 开源数据湖存储表格式。有关更多信息,请参阅 在 Athena for Spark 中使用非 Hive 表格式 和针对在 Athena for Spark 中使用 在 Athena for Spark 中使用 Apache Iceberg 表、在 Athena for Spark 中使用 Apache Hudi 表 和 在 Athena for Spark 中使用 Linux Foundation Delta Lake 表 表的各个主题。
-
针对 Apache Spark 的加密支持 - 在 Athena for Spark 中,您现在可以对 Spark 节点之间的传输中数据以及 Spark 存储在磁盘上的本地静态数据启用加密。要启用 Spark 加密,可使用 Athena 控制台、AWS CLI 或 Athena API。有关更多信息,请参阅 启用 Apache Spark 加密。
有关 Amazon Athena for Apache Spark 的更多信息,请参阅 在 Amazon Athena 中使用 Apache Spark。
2023 年 6 月 2 日
发布时间:2023 年 6 月 2 日
现在,您可以在 Athena 中删除容量预留,并使用 AWS CloudFormation 模板指定 Athena 容量预留。
-
删除容量预留 - 您现在可以在 Athena 中删除已取消的容量预留。必须取消预留,然后才能将其删除。删除容量预留会立即从您的账户中移除该预留。无法再引用已删除的预留,包括通过其 ARN 进行引用。要删除预留,您可以使用 Athena 控制台或 Athena API。有关更多信息,请参阅《Amazon Athena 用户指南》中的 删除容量预留 和 Amazon Athena API 参考中的 DeleteCapacityReservation。
-
使用 AWS CloudFormation 模板进行容量预留 - 现在您可以使用 AWS CloudFormation 模板通过
AWS::Athena::CapacityReservation
资源指定 Athena 容量预留。有关更多信息,请参阅《AWS CloudFormation 用户指南》中的 AWS::Athena::CapacityReservation。
有关在 Athena 中使用容量预留来配置容量的更多信息,请参阅 管理查询处理容量。
2023 年 5 月 25 日
发布时间:2023 年 5 月 25 日
Athena 已发布数据来源连接器更新,可提高联合查询性能。新的下推优化和动态筛选功能使更多操作可以在源数据库中执行,而不是在 Athena 中执行。这些优化功能减少了查询运行时间和扫描的数据量。这些改进功能需要采用 Athena 引擎版本 3。
以下连接器已更新:
有关升级数据来源连接器的信息,请参阅 更新数据来源连接器。
2023 年 5 月 18 日
发布时间:2023 年 5 月 18 日
您现在可以使用 AWS PrivateLink 将 IPv6 入站连接到 Amazon Athena。
Amazon Athena 已将其对通过互联网协议版本 6(IPv6)端点的入站连接的支持范围扩大到包括 AWS PrivateLink
互联网的快速发展正在耗尽互联网协议版本 4(IPv4)地址的可用性。IPv6 可将可用地址的数量增加几倍,这样您就不必再管理您的 VPC 中的重叠地址空间了。在此版本中,您现在可以将 IPv6 寻址的优势与 AWS PrivateLink 的安全性和性能优势相结合。
要通过编程方式连接到 AWS 服务,您可以使用 AWS CLI
2023 年 5 月 15 日
发布时间:2023 年 5 月 15 日
Athena 宣布发布适用于 DynamoDB、CloudWatch Logs、CloudWatch Metrics 和 AWS CMDB 的 Apache Spark DataSourceV2(DSV2)连接器。使用新的 DSV2 连接器可通过 Spark 查询这些数据来源。DSV2 连接器使用的参数与其相应的 Athena 联合连接器相同。DSV2 连接器直接在 Spark 工作线程上运行,无需您部署 Lambda 函数即可使用它们。
有关更多信息,请参阅 使用适用于 Apache Spark 的数据来源连接器。
2023 年 5 月 10 日
发布时间:2023 年 5 月 10 日
为 Athena 发布了 ODBC 1.1.20 驱动程序。
功能和增强功能:
-
Lake Formation 端点覆盖支持。
-
ADFS 身份验证插件有一个用于设置 Relying Party 值 (
LoginToRP
) 的新参数。 -
AWS 库更新。
错误修复:
-
当
SQLPrepare()
方法提交失败时,准备好的语句取消分配失败。 -
将 C 类型转换为 SQL 类型时,绑定准备好的语句参数时出错。
-
当
EXPLAIN
和EXPLAIN ANALYZE
查询使用SQLPrepare()
和SQLExecute()
时无法返回数据。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 ODBC 连接到 Amazon Athena。
2023 年 5 月 8 日
发布时间:2023 年 5 月 8 日
Athena 宣布推出以下修复和改进。
-
更新了 Hudi 集成 - Athena 更新了与 Apache Hudi 的集成。您现在可以使用 Athena 来查询 Hudi 0.12.2 表,现在还支持 Hudi 表的 Hudi 元数据列表。有关更多信息,请参阅 查询 Apache Hudi 数据集 和 使用 Hudi 元数据提高性能。
-
时间戳转换修复 - 将时间戳转换的处理更正为精度较低的数据类型。以前,Athena 引擎版本 3 错误地将值四舍五入为目标类型,而不是在转换期间将其截断。
以下示例说明了修复之前的错误处理。
示例 1:从以微秒为单位的时间戳转换为毫秒
示例数据
A, 2020-06-10 15:55:23.383 B, 2020-06-10 15:55:23.382 C, 2020-06-10 15:55:23.383345 D, 2020-06-10 15:55:23.383945 E, 2020-06-10 15:55:23.383345734 F, 2020-06-10 15:55:23.383945278
以下查询尝试检索与特定值匹配的时间戳。
SELECT * FROM table WHERE timestamps.col = timestamp'2020-06-10 15:55:23.383'
查询返回以下结果。
A, 2020-06-10 15:55:23.383 C, 2020-06-10 15:55:23.383 E, 2020-06-10 15:55:23.383
在修复之前,Athena 没有包含值
2020-06-10 15:55:23.383945
或2020-06-10 15:55:23.383945278
,因为它们被四舍五入为2020-06-10 15:55:23.384
。示例 2:从时间戳转换为日期
以下查询返回了错误的结果。
SELECT date(timestamp '2020-12-31 23:59:59.999')
结果
2021-01-01
在修复之前,Athena 将该值向上取整,从而向前推进一天。现在,这些值会被截断而不是向上取整。
2023 年 4 月 28 日
发布时间:2023 年 4 月 28 日
现在,您可以在 Amazon Athena 上使用容量预留对完全托管的计算容量运行 SQL 查询。
预置容量提供工作负载管理功能,帮助您优化、控制和扩展最重要的交互式工作负载。您可以随时添加容量以增加可并发运行的查询数量,控制可以使用容量的工作负载,并在工作负载之间共享容量。
有关更多信息,请参阅 管理查询处理容量。有关定价信息,请访问 Amazon Athena 定价
2023 年 4 月 17 日
发布时间:2023 年 4 月 17 日
Athena 发布 JDBC 驱动程序版本 2.0.36。该驱动程序包含新的功能并解决了一个问题。
新功能
-
现在您可以在 AD FS 身份验证中使用可自定义的信赖方标识符。
-
现在您可以将使用连接器的应用程序的名称添加到用户代理字符串中。
已解决的问题
-
修复了使用
getSchema()
检索不存在的架构时发生的错误。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2023 年 4 月 14 日
发布时间:2023 年 6 月 20 日
Athena 宣布推出以下修复和改进。
-
当您将字符串转换为时间戳时,需要在日期和时间或时区之间留出一个空格。有关更多信息,请参阅 将字符串转换为时间戳时,日期和时间值之间需要空间。
-
删除了时间戳精度处理方式的重大变化。为了保持 Athena 引擎版本 2 和 Athena 引擎版本 3 之间的一致性,时间戳精度现在默认为毫秒而不是微秒。
-
现在,Athena 在运行查询时会始终强制其访问查询输出存储桶。请确保所有运行 StartQueryExecution 操作的 IAM 主体对查询输出存储桶都具有 S3:GetBucketLocation 权限。
2023 年 4 月 4 日
发布时间:2023 年 4 月 4 日
现在,您可以使用 Amazon Athena 在联合数据来源上创建和查询视图。使用单个联合视图查询多个外部表或数据子集。这简化了所需的 SQL,使您能够灵活地对必须使用 SQL 查询数据的最终用户的数据来源进行混淆处理。
2023 年 3 月 30 日
发布时间:2023 年 3 月 30 日
Amazon Athena 宣布在其他 AWS 区域 推出 Amazon Athena for Apache Spark。
此版本将 Amazon Athena for Apache Spark 的可用性扩展到包括亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)和欧洲地区(法兰克福)。
有关 Amazon Athena for Apache Spark 的更多信息,请参阅 在 Amazon Athena 中使用 Apache Spark。
2023 年 3 月 28 日
发布时间:2023 年 3 月 28 日
Athena 宣布推出以下修复和改进。
-
在对
GetQueryExecution
和BatchGetQueryExecution
Athena API 操作的响应中,新subStatementType
字段显示运行的查询类型(例如:SELECT
、INSERT
、UNLOAD
、CREATE_TABLE
或CREATE_TABLE_AS_SELECT
)。 -
修复了 Apache Hive 写入操作无法正确加密清单文件的问题。
-
Athena 引擎版本 3 现在可以正确处理
approx_percentile
函数中的NaN
值和Infinity
值。approx_percentile
函数以定百分比返回数据集的近似百分位数。Athena 引擎版本 2 错误地将
NaN
视为大于Infinity
的值。Athena 引擎版本 3 现在可以按照其他分析和统计函数中对这些值的处理方式处理NaN
和Infinity
。以下几点将更详细地描述新行为。-
如果数据集中存在
NaN
,则 Athena 将返回NaN
。 -
如果
NaN
不存在,但Infinity
存在,Athena 会将Infinity
视为一个非常大的数字。 -
如果存在多个
Infinity
值,Athena 会将它们视为同一个非常大的数字。如有必要,Athena 会输出Infinity
。 -
如果单个数据集同时具有
Infinity
和-Double.MAX_VALUE
,且百分位数结果为-Double.MAX_VALUE
,则 Athena 返回-Infinity
。 -
如果单个数据集同时具有
Infinity
和Double.MAX_VALUE
,且百分位数结果为Double.MAX_VALUE
,则 Athena 返回Infinity
。 -
要从计算中排除
Infinity
和NaN
,请使用is_finite()
函数,如下例所示。approx_percentile(x, 0.5) FILTER (WHERE is_finite(x))
-
2023 年 3 月 27 日
发布时间:2023 年 3 月 27 日
现在,您可以在 Amazon Athena 中指定 Athena SQL 工作组的最低加密级别。此功能可确保 Athena SQL 工作组中所有查询的结果都以您指定的加密级别或更高的加密级别进行加密。您可以从多个加密强度级别中进行选择,以保护您的数据。要配置所需的最低加密级别,您可以使用 Athena 控制台、AWS CLI、API 或 SDK。
最低加密功能不适用于启用 Apache Spark 的工作组。有关更多信息,请参阅 为工作组配置最低加密。
2023 年 3 月 17 日
发布时间:2023 年 3 月 17 日
Athena 宣布推出以下修复和改进。
-
修复了 Amazon Athena DynamoDB 连接器的一个问题,该问题导致查询失败,并显示错误消息
KeyConditionExpressions 每个键只能包含一个条件
。之所以出现此问题,是因为与 Athena 引擎版本 2 相比,Athena 引擎版本 3 识别了下推更多种类谓词的机会。在 Athena 引擎版本 3 中,像
some_column LIKE 'someprefix%
这样的子句作为筛选器谓词下推,这些谓词对给定列应用下限和上限。Athena 引擎版本 2 没有下推这些谓词。在 Athena 引擎版本 3 中,当some_column
是排序键列时,引擎会将筛选器谓词下推到 DynamoDB 连接器。然后,筛选器谓词会被进一步下推到 DynamoDB 服务。由于 DynamoDB 在排序键上不支持多个筛选器,因此 DynamoDB 会返回错误。要更正此问题,请将您的 Amazon Athena DynamoDB 连接器更新到版本 2023.11.1。有关更新连接器的说明,请参阅 更新数据来源连接器。
2023 年 3 月 8 日
发布时间:2023 年 3 月 8 日
Athena 宣布推出以下修复和改进。
-
修复了联合查询的一个问题,该问题导致时间戳谓词值以微秒而不是毫秒的形式发送。
2023 年 2 月 15 日
发布时间:2023 年 2 月 15 日
Athena 宣布推出以下修复和改进。
2023 年 1 月 31 日
发布时间:2023 年 1 月 31 日
您现在可以使用 Amazon Athena 来查询 Google Cloud Storage 中的数据。与 Amazon S3 一样,Google Cloud Storage 是一种在存储桶中存储数据的托管式服务。使用适用于 Google Cloud Storage 的 Athena 连接器对外部数据运行交互式联合身份查询。
有关更多信息,请参阅 Amazon Athena Google Cloud Storage 连接器。
2023 年 1 月 20 日
发布时间:2023 年 1 月 20 日
您现在可以查看有关 Athena 压缩支持的扩展文档。分别增加了有关 Hive 表压缩、Iceberg 表压缩 和 ZSTD 压缩级别 的单独主题。
有关更多信息,请参阅 在 Athena 中使用压缩。
2023 年 1 月 3 日
发布时间:2023 年 1 月 3 日
Athena 宣布推出以下更新:
-
Hive 元存储的其他命令 – 您可以使用 Athena 连接到作为元数据目录自行管理的 Apache Hive 元存储,并查询存储在 Amazon S3 中的数据。在此版本中,您可以使用
CREATE TABLE AS
(CTAS)、INSERT INTO
和其他 12 个数据定义语言(DDL)命令与 Apache Hive 元存储进行交互。您可以使用这组扩展的 SQL 功能直接从 Athena 管理 Hive Metastore 架构。有关更多信息,请参阅 使用外部 Hive 元存储。
-
JDBC 驱动程序版本 2.0.35 – Athena 发布了 JDBC 驱动程序版本 2.0.35。JDBC 2.0.35 驱动程序包含以下更新:
-
该驱动程序现在将以下库用于 Jackson JSON 解析器。
-
jackson-annotations 2.14.0(以前为 2.13.2)
-
jackson-core 2.14.0(以前为 2.13.2)
-
jackson-databind 2.14.0(以前为 2.13.2.2)
-
-
已停止支持 JDBC 版本 4.1。
有关更多信息以及下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
-
2022 年的 Athena 发布说明
2022 年 12 月 14 日
发布时间:2022 年 12 月 14 日
现在,您可以使用适用于 Kafka 的 Amazon Athena 连接器,对流数据运行 SQL 查询。例如,您可以在 Amazon Managed Streaming for Apache Kafka(Amazon MSK)中对实时流数据运行分析查询,并将其与 Amazon S3 数据湖中的历史数据结合。
适用于 Kafka 的 Amazon Athena 连接器支持在多个流引擎上进行查询。您可以使用 Athena,在 Amazon MSK 预置集群和无服务器集群、自行管理的 Kafka 部署以及 Confluent Cloud 中的流数据上运行 SQL 查询。
有关更多信息,请参阅 Amazon Athena MSK 连接器。
2022 年 12 月 2 日
发布时间:2022 年 12 月 2 日
Athena 发布了 JDBC 驱动程序版本 2.0.34。JDBC 2.0.34 驱动程序包括以下新功能和已解决的问题:
-
查询结果重用支持 – 现在,您可以在指定的时间限制内重用先前执行的查询的结果,而不必在每次运行查询时都让 Athena 重新计算结果。有关更多信息,请参阅 Installation and Configuration Guide(《安装和配置指南》)(可从 JDBC 下载页面获取)和 在 Athena 中重复使用查询结果。
-
Ec2InstanceMetadata 支持 – JDBC 驱动程序现在支持使用 IAM 实例配置文件的 Ec2InstanceMetadata 身份验证方法。
-
基于字符的异常修复 – 修复了包含某些语言字符的查询出现的异常。
-
漏洞修复 – 更正了与 AWS 依赖项(打包有连接器)相关的漏洞。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2022 年 11 月 30 日
发布时间:2022 年 11 月 30 日
现在,您可以在 Athena 上以交互方式创建和运行 Apache Spark 应用程序以及与 Jupyter 兼容的笔记本。使用 Spark 在 Athena 上运行数据分析,无需规划、配置或管理资源。提交 Spark 代码进行处理,然后直接接收结果。使用 Amazon Athena 控制台中简化的笔记本体验,以通过 Python 或 使用 Athena 笔记本 API 开发 Apache Spark 应用程序。
Amazon Athena 上的 Apache Spark 无服务器,可通过提供即时计算实现自动按需扩展,从而满足不断变化的数据卷和处理要求。
有关更多信息,请参阅 在 Amazon Athena 中使用 Apache Spark。
2022 年 11 月 18 日
发布时间:2022 年 11 月 18 日
现在,您可以使用适用于 IBM Db2 的 Amazon Athena 连接器,查询来自 Athena 的 Db2。例如,您可以通过 Db2 上的数据仓库和 Amazon S3 中的数据湖运行分析查询。
Amazon Athena Db2 连接器通过 Lambda 环境变量显示了多个配置选项。有关配置选项、参数、连接字符串、部署和限制的信息,请参阅 Amazon Athena IBM Db2 连接器。
2022 年 11 月 17 日
发布时间:2022 年 11 月 17 日
Athena 引擎版本 3 中的 Apache Iceberg 支持现在提供以下增强的 ACID 事务功能:
-
ORC 和 Avro 支持 – 使用 Apache Avro
和 Apache ORC 基于行和列的文件格式创建 Iceberg 表。对这些格式的支持是对 Parquet 现有支持的补充。 -
MERGE INTO – 使用
MERGE INTO
命令可以有效实现大规模数据合并。MERGE INTO
将INSERT
、UPDATE
和DELETE
操作合并为一个事务。这不仅可以减少数据管道中的处理开销,还可以减少 SQL 编写开销。有关更多信息,请参阅更新 Iceberg 表数据 和MERGE INTO。 -
CTAS 和 VIEW 支持 – 将
CREATE TABLE AS SELECT
(CTAS)和CREATE VIEW
语句与 Iceberg 表结合使用。有关更多信息,请参阅CREATE TABLE AS 和CREATE VIEW 和 CREATE DIALECT VIEW。 -
VACUUM 支持 – 您可以使用
VACUUM
语句,通过删除不再需要的快照和数据对数据湖进行优化。您可以使用此功能来提高读取性能并满足 GDPR等法规要求。有关更多信息,请参阅优化 Iceberg 表 和VACUUM。
这些新功能需要 Athena 引擎版本 3,并且可在支持 Athena 的所有区域使用。您可以将其与 Athena 控制台
有关使用 Athena 中 Iceberg 的信息,请参阅 查询 Apache Iceberg 表。
2022 年 11 月 14 日
发布时间:2022 年 11 月 14 日
Amazon Athena 现在支持 IPv6 端点进行入站连接,您可以使用这些端点通过 IPv6 调用 Athena 函数。您可以使用此功能来满足 IPv6 合规性要求,以及处理 IPv4 和 IPv6 之间的地址转换,而无需其他网络设备。
要使用此功能,请将应用程序配置为使用新 Athena 双堆栈端点(支持 IPv4 和 IPv6)。双堆栈端点使用格式 athena.
。例如,美国东部(弗吉尼亚州北部)区域中的双堆栈端点为 region
.api.awsathena.us-east-1.api.aws
。
当您向双堆栈 Athena 端点发出请求时,端点会解析为 IPv6 或 IPv4 地址,具体取决于您的网络和客户端使用的协议。要通过编程方式连接到 AWS 服务,您可以使用 AWS CLI
有关服务端点的更多信息,请参阅 AWS 服务端点。要了解有关 Athena 服务端点的更多信息,请参阅 AWS 文档中的 Amazon Athena 端点和配额。
您可以使用新的 Athena 双堆栈端点进行入站连接,这不会产生额外的费用。双堆栈端点已在全部 AWS 区域 中正式发布。
2022 年 11 月 11 日
发布时间:2022 年 11 月 11 日
Athena 宣布推出以下修复和改进。
-
扩展的 Lake Formation 精细访问控制 – 现在,您可以在 Athena 查询中使用 AWS Lake Formation
精细访问控制策略,来查询以任何受支持的文件或表格格式存储的数据。您可以在 Lake Formation 中使用精细访问控制,通过数据筛选条件来限制对查询结果中的数据访问,从而实现列级、行级和单元级安全性。Athena 中支持的表格格式包括 Apache Iceberg、Apache Hudi 和 Apache Hive。扩展的精细访问控制可在 Athena 支持的所有区域中使用。扩展的表和文件格式支持需要 Athena 引擎版本 3,它可提供新功能和改进的查询性能 ,但不会改变在 Lake Formation 中设置精细访问控制策略的方式。 在 Athena 中使用这种扩展的精细访问控制时,请注意以下事项:
-
EXPLAIN – 在 Lake Formation 中定义的行或单元格筛选信息以及查询统计信息未在
EXPLAIN
和EXPLAIN ANALYZE
的输出中显示。有关 Athena 中EXPLAIN
的信息,请参阅 在 Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE。 -
外部 Hive 元存储 – Apache Hive 隐藏列不能用于精细访问控制筛选,精细访问控制不支持 Apache Hive 的隐藏系统表。有关更多信息,请参阅 注意事项和限制主题中的 使用外部 Hive 元存储。
-
查询统计信息 – 如果查询具有在 Lake Formation 中定义的行级筛选条件,Athena 查询统计信息中不会显示阶段级输入和输出行数以及数据大小信息。有关查看 Athena 查询统计信息的信息,请参阅 查看已完成查询的统计数据和执行详细信息 和 GetQueryRuntimeStatistics。
-
工作组 – 同一 Athena 工作组中的用户可以查看由 Lake Formation 精细访问控制配置为可供工作组访问的数据。有关使用 Athena 查询注册到 Lake Formation 的数据的信息,请参阅 使用 Athena 查询注册到 AWS Lake Formation 的数据。
有关在 Lake Formation 中使用精细访问控制的信息,请参阅 AWS 大数据博客中的使用 AWS Lake Formation 管理精细访问控制
。 -
-
Athena 联合查询 – Athena 联合查询现在保留
struct
对象中字段名称的原始大小写。以前,struct
字段名称会自动变为小写。
2022 年 11 月 8 日
发布时间:2022 年 11 月 8 日
现在,您可以使用查询结果重用缓存功能来加速 Athena 中的重复查询。重复查询是一种 SQL 查询,与最近提交的查询相同,会产生相同的结果。当您需要运行相同的多个查询时,结果重用缓存可以减少生成结果所需的时间。结果重用缓存还可以减少扫描的字节数,从而降低成本。
有关更多信息,请参阅 在 Athena 中重复使用查询结果。
2022 年 10 月 13 日
发布时间:2022 年 10 月 13 日
Athena 宣布推出 Athena 引擎版本 3。
Athena 升级了其 SQL 查询引擎,以包含 Trino
有关更多信息,请参阅 Athena 引擎版本 3。
2022 年 10 月 10 日
发布时间:2022 年 10 月 10 日
Athena 发布了 JDBC 驱动程序版本 2.0.33。JDBC 2.0.33 驱动程序包括以下更改:
-
在凭证提供程序类的用户代理字符串中添加了新的驱动程序版本、JDBC 版本和插件名称属性。
-
更正了错误消息并添加了必要的信息。
-
现在,如果连接关闭或 Athena 预编译语句执行失败,则取消预编译语句的分配。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2022 年 9 月 23 日
发布时间:2022 年 9 月 26 日
Amazon Athena Neptune 连接器现在支持不区分大小写的列和表名称匹配。
-
Neptune 数据来源连接器可以解析 Neptune 表上区分大小写的列名称,即使 AWS Glue 中表的列名称均为小写。要启用此行为,请在 Neptune 连接器 Lambda 函数上将
enable_caseinsensitivematch
环境变量设置为true
。 -
由于 AWS Glue 仅支持小写表名称,因此在为 Neptune 创建 AWS Glue 表时,请指定 AWS Glue 表参数
"glabel" =
。table_name
有关 Neptune 连接器的更多信息,请参阅 Amazon Athena Neptune 连接器。
2022 年 9 月 13 日
发布时间:2022 年 9 月 13 日
Athena 宣布推出以下修复和改进。
-
外部 Hive 元存储 — 当
WHERE
子句包含外部 Hive 元存储 (EHMS) 中不存在的分区时,Athena 现在将返回NULL
而不是引发异常。新行为与 AWS Glue Data Catalog 的行为匹配。 -
参数化查询 — 参数化查询中的值现在可以转换为
DOUBLE
数据类型。 -
Apache Iceberg — 现在,当 Amazon S3 存储桶上启用对象锁定时,对 Iceberg 表的写入操作会成功。
2022 年 8 月 31 日
发布时间:2022 年 8 月 31 日
Amazon Athena 宣布 Athena 和其功能
此版本扩展了 Athena 在亚太地区的可用性,包括亚太地区(香港)、亚太地区(雅加达)、亚太地区(孟买)、亚太地区(大阪)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)和亚太地区(东京)。有关在这些区域和其他区域提供的 AWS 服务 的完整列表,请参阅 AWS 区域 服务列表
2022 年 8 月 23 日
发布时间:2022 年 8 月 23 日
Athena Query Federation SDK 发行版 v2022.32.1
-
在 Amazon Athena Oracle 数据来源连接器中增加了对基于 SSL 的 Amazon RDS 实例连接的支持。支持仅限于传输层安全性协议(TLS)以及客户端对服务器的身份验证。由于 Amazon RDS 不支持相互身份验证,因而此更新不包括对相互身份验证的支持。
有关更多信息,请参阅 Amazon Athena Oracle 连接器。
2022 年 8 月 3 日
发布时间:2022 年 8 月 3 日
Athena 发布了 JDBC 驱动程序版本 2.0.32。JDBC 2.0.32 驱动程序包括以下更改:
-
发送到 Athena SDK 的
User-Agent
字符串已扩展为包含驱动程序版本、JDBC 规范版本和身份验证插件名称。 -
修复了没有为
CheckNonProxyHost
参数提供任何值时会出现的NullPointerException
。 -
修复了 BrowserSaml 身份验证插件中的
login_url
解析问题。 -
修复了将
UseProxyforIdp
参数设置为true
时出现的代理主机问题。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2022 年 8 月 1 日
发布时间:2022 年 8 月 1 日
Athena 宣布改进 Athena 查询联合身份验证 SDK 和 Athena 预构建的数据源连接器。改进包括以下方面:
-
结构解析 — 修复了 Athena 查询联合身份验证 SDK 中的
GlueFieldLexer
解析问题,该总是导致某些复杂结构无法显示其所有数据。此问题影响了基于 Athena 联合身份验证 SDK 构建的连接器。 -
AWS Glue 表 — 增加了对 AWS Glue 表中
set
和decimal
列类型的额外支持。 -
DynamoDB 连接器 — 增加了忽略 DynamoDB 属性名称大小写的功能。有关更多信息,请参阅 Amazon Athena DynamoDB 连接器 页面 参数 一节中的
disable_projection_and_casing
。
有关更多信息,请参阅 GitHub 上的 Athena 查询联合身份验证版本 v2022.30.2
2022 年 7 月 21 日
发布时间:2022 年 7 月 21 日
现在,您可以在 Athena 控制台中使用性能指标和交互式、可视化查询分析工具来分析和调试查询。查询性能数据和执行详细信息可以帮助您识别查询中的瓶颈,查看查询的每个阶段的运算符和统计信息,跟踪各个阶段之间的数据流量,并验证查询谓词的影响。现在,您可以:
-
只需单击一下即可访问查询的分布式和逻辑执行计划。
-
在阶段开始运行之前探索每个阶段的操作。
-
通过排队、计划和执行阶段所用时间的指标,直观显示已完成查询的性能。
-
获取有关查询处理和输出的行数和源数据量的信息。
-
查看在上下文中呈现并格式化为交互式图表的查询的精细执行详细信息。
-
使用精确的阶段级执行详细信息来了解查询中的数据流。
-
使用同样在今天发布的新 API 以编程方式分析查询性能数据以获取查询运行时统计数据。
要了解如何在查询中使用这些功能,请观看 AWS YouTube 频道上的视频教程使用新的查询分析工具优化 Amazon Athena 查询
有关文档,请参阅 查看 SQL 查询的执行计划 和 查看已完成查询的统计数据和执行详细信息。
2022 年 7 月 11 日
发布时间:2022 年 7 月 11 日
现在,您可以直接从 Athena 控制台或 API 运行参数化查询,而无需提前准备 SQL 语句。
现在,当您在 Athena 控制台中运行问号形式的参数的查询时,用户界面会提示您直接输入参数值。这样就无需在每次运行查询时都在查询编辑器中修改文字值。
如果您使用增强版查询执行 API,现在可以在单次调用中提供执行参数及其值。
有关更多信息,请参阅本用户指南中的 使用参数化查询 和 AWS 大数据博客文章使用 Amazon Athena 参数化查询以将数据作为服务提供
2022 年 7 月 8 日
发布时间:2022 年 7 月 8 日
Athena 宣布推出以下修复和改进。
-
修复了导致查询失败的 SageMaker 终端节点(UDF)的
DATE
列转换处理问题。
2022 年 6 月 6 日
发布时间:2022 年 6 月 6 日
Athena 发布了 JDBC 驱动程序版本 2.0.31。JDBC 2.0.31 驱动程序包括以下更改:
-
log4j 依赖关系问题 – 解决了因 log4j 依赖关系引起的
Cannot find driver class
(找不到驱动程序类)错误消息。
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2022 年 5 月 25 日
发布时间:2022 年 5 月 25 日
Athena 宣布推出以下修复和改进。
-
Iceberg 支持
-
推出对跨区域查询的支持。您现在可以查询与您所用 AWS 区域不同的 AWS 区域 中的 Iceberg 表。中国区域不支持跨区域查询。
-
推出对服务器端加密配置的支持。您现在可以使用 SSE-S3/SSE-KMS 来加密 Amazon S3 中的 Iceberg 写操作数据。
有关在 Athena 中使用 Apache Iceberg 的更多信息,请参阅查询 Apache Iceberg 表。
-
-
JDBC 2.0.30 驱动程序发行版
适用于 Athena 的 JDBC 2.0.30 驱动程序包含以下改进:
-
修复了影响参数化编写的语句的数据竞争问题。
-
修复了 Gradle 构建环境中出现的应用程序启动问题。
要下载 JDBC 2.0.30 驱动程序、发布说明和文档,请参阅通过 JDBC 连接到 Amazon Athena。
-
2022 年 5 月 6 日
发布时间:2022 年 5 月 6 日
发布了适用于 Athena 的 JDBC 2.0.29 和 ODBC 1.1.17 驱动程序。
这些驱动程序包括以下更改:
-
更新了 SAML 插件浏览器启动过程。
有关这些更改的更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
2022 年 4 月 22 日
发布时间:2022 年 4 月 22 日
Athena 宣布推出以下修复和改进。
-
修复了使用满足以下条件时分区缓存的分区索引和筛选功能
问题: -
partition_filtering.enabled
密钥已在表的 AWS Glue 表属性中设置为true
。 -
同一个表被多次使用,但使用了不同的分区筛选值。
-
2022 年 4 月 21 日
发布时间:2022 年 4 月 21 日
您现在可以使用 Amazon Athena 对新数据源运行联合查询,这些数据源包括 Google BigQuery、Azure Synapse 和 Snowflake。新数据源连接器包括:
有关 Athena 支持的数据来源的完整列表,请参阅 可用数据来源连接器。
为了更轻松地浏览可用源并连接到数据,您现在可以从 Athena 控制台中已更新的 Data Sources(数据源)屏幕进行搜索、排序和筛选可用连接器。
要了解有关查询联合源的信息,请参阅 使用 Amazon Athena 联合查询 和 使用联合查询。
2022 年 4 月 13 日
发布时间:2022 年 4 月 13 日
Athena 发布了 JDBC 驱动程序版本 2.0.28。JDBC 2.0.28 驱动程序包括以下更改:
-
JWT 支持 – 驱动程序现在支持使用 JSON Web 令牌(JWT)进行身份验证。有关将 JWT 与 JDBC 驱动程序一起使用的信息,请参阅安装和配置指南(可从 JDBC 驱动程序页面下载)。
-
更新了 Log4j 库 – JDBC 驱动程序现在使用以下 Log4j 库:
-
Log4j-api 2.17.1(以前为 2.17.0)
-
Log4j-core 2.17.1(以前为 2.17.0)
-
Log4j-jcl 2.17.2
-
-
其他改进 – 新驱动程序还包括以下改进和错误修复:
-
Athena 预编译语句功能现在可以通过 JDBC 获得。有关预编译语句的信息,请参阅 使用参数化查询。
-
Athena JDBC SAML 联合身份验证现已在中国区域正常运行。
-
其他小改进。
-
有关更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2022 年 3 月 30 日
发布时间:2022 年 3 月 30 日
Athena 宣布推出以下修复和改进。
-
跨区域查询 – 现在,您可以使用 Athena 跨 AWS 区域 查询位于 Amazon S3 存储桶中的数据,其中包括亚太地区(香港)、中东(巴林)、非洲(开普敦)和欧洲(米兰)。中国区域不支持跨区域查询。
-
有关可以使用 Athena 的 AWS 区域 列表,请参阅 Amazon Athena 端点和配额。
-
有关启用在默认情况下禁用的 AWS 区域 的信息,请参阅启用区域。
-
有关跨区域查询的信息,请参阅 跨区域查询。
-
2022 年 3 月 18 日
发布时间:2022 年 3 月 18 日
Athena 宣布推出以下修复和改进。
-
动态筛选 - 动态筛选通过向相应表的每条记录高效应用筛选条件,实现了整数列的改进。
-
Iceberg – 修复了在编写大于 2GB 的 Iceberg Parcia 文件时会导致故障的问题。
-
未压缩输出 - CREATE TABLE 语句现在支持写入未压缩的文件。要写入未压缩的文件,请使用以下语法:
-
CREATE TABLE(文本文件或 JSON)– 在
TBLPROPERTIES
中,请指定write.compression = NONE
。 -
CREATE TABLE (Parquet) – 在
TBLPROPERTIES
中,请指定parquet.compression = UNCOMPRESSED
。 -
CREATE TABLE (ORC) – 在
TBLPROPERTIES
中,请指定orc.compress = NONE
。
-
-
压缩 – 修复了插入文本文件表的问题,这些文件表在使用非默认压缩方法时以某种格式创建了压缩文件,但使用了另一种压缩格式文件扩展名。
-
Avro – 修复了从 Avro 文件中读取固定类型的小数时出现的问题。
2022 年 3 月 2 日
发布时间:2022 年 3 月 2 日
Athena 发布了以下功能和改进功能。
2022 年 2 月 23 日
发布时间:2022 年 2 月 23 日
Athena 宣布推出以下修复和性能改进。
-
改进了内存处理以提高性能并减少内存错误。
-
Athena 现在可读取将时区信息存储在 Stripe 页脚中的 ORC 时间戳列,并且可写入页脚中包含时区(UTC)信息的 ORC 文件。如果要读取的 ORC 文件是在非 UTC 时区环境中创建的,则仅会影响 ORC 时间戳读取行为。
-
修复了会导致查询计划不理想的符号链接表大小估计不正确的问题。
-
现在可以通过 Athena 控制台从 Hive 元数据仓数据源查询横向爆炸视图。
-
改进了 Amazon S3 读取错误消息,以包含更详细的 Amazon S3 错误代码信息。
-
修复了会导致 ORC 格式的输出文件与 Apache Hive 3.1 不兼容的问题。
-
修复了会导致某些 DML 和 DDL 查询中带引号的表名失败的问题。
2022 年 2 月 15 日
发布时间:2022 年 2 月 15 日
Amazon Athena 增加了所有 AWS 区域的活动 DML 查询配额。活动查询包括正在运行的查询和已排队的查询。在此次更改后,您现在可以比以前拥有更多处于活动状态的 DML 查询。
有关 Athena 服务限额的信息,请参阅 服务限额。有关您使用 Athena 的区域的查询限额,请参阅 AWS 一般参考 中的 Amazon Athena 端点和限额。
要监控配额使用情况,您可以使用 CloudWatch 使用情况指标。Athena 会在 AWS/Usage
命名空间中发布 ActiveQueryCount
指标。有关更多信息,请参阅 使用 CloudWatch 监控 Athena 使用情况指标。
检查使用情况后,您可以通过 Service Quotas
2022 年 2 月 14 日
发布时间:2022 年 2 月 14 日
此发行版在 Athena GetQueryExecution API 操作的 AthenaError 响应对象中增加了 ErrorType
子字段。
现有的 ErrorCategory
字段可指示失败查询的一般来源(系统、用户或其他),而新的 ErrorType
字段可提供有关所出现错误的更详细信息。结合这两个字段中的信息,可以深入洞察查询失败的原因。
有关更多信息,请参阅 Athena 错误目录。
2022 年 2 月 9 日
发布时间:2022 年 2 月 9 日
旧版 Athena 控制台不再可用。全新的 Athena 控制台支持早期版本控制台的所有功能,但具有更易于使用的现代化界面,并包括新功能,提升了制定查询、分析数据和管理使用情况的体验。要使用新的 Athena 控制台,请访问 https://console.aws.amazon.com/athena/
2022 年 2 月 8 日
发布时间:2022 年 2 月 8 日
预期存储桶拥有者 – 作为额外的安全措施,您现在可以选择指定您希望其成为 Athena 中查询结果输出位置存储桶拥有者的 AWS 账户 ID。如果查询结果存储桶拥有者的账户 ID 与您指定的 ID 不匹配,则输出到存储桶的尝试将会失败,并出现 Amazon S3 权限错误。您可以在客户端或工作组级别进行此设置。
有关更多信息,请参阅 指定查询结果位置。
2022 年 1 月 28 日
发布时间:2022 年 01 月 28 日
Athena 发布以下引擎功能增强。
-
Apache Hudi – 读取时合并 (MoR) 表上的快照查询现在可以读取具有
INT64
数据类型的时间戳列。 -
UNION 查询 – 针对多次扫描同一个表的某些
UNION
查询提高性能并减少数据扫描。 -
分离查询 – 针对筛选条件中每个分区列仅具有分离值的查询提高性能。
-
分区投影增强功能
-
现在允许在
injected
类型的列筛选条件中使用多个分离值。有关更多信息,请参阅 注入的类型。 -
针对基于字符串类型且在筛选条件中仅具有分离值的列提高性能,例如
CHAR
或VARCHAR
。
-
2022 年 1 月 13 日
发布时间:2022 年 1 月 13 日
发布了适用于 Athena 的 JDBC 2.0.27 和 ODBC 1.1.15 驱动程序。
JDBC 2.0.27 驱动程序包括以下更改:
-
已更新驱动程序以检索外部目录。
-
扩展驱动程序版本号现在作为 Athena API 调用的一部分包含在
user-agent
字符串中。
ODBC 1.1.15 驱动程序包括以下更改:
-
更正第二次调用
SQLParamData()
时出现的问题。
有关这些更改的更多信息以及下载新驱动程序、版本注释和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
2021 年的 Athena 发布说明
2021 年 11 月 26 日
发布时间:2021 年 11 月 26 日
Athena 发布了 Athena ACID 事务的公开预览版,该版本在 Athena 的 SQL 数据操作语言 (DML) 中增加了写入、删除、更新和时间旅行操作。Athena ACID 事务使多个并发用户能够对 Amazon S3 数据进行可靠的行级修改。Athena ACID 事务基于 Apache Iceberg
Athena ACID 事务和熟悉的 SQL 语法简化了对业务和监管数据的更新。例如,要响应数据擦除请求,您可以执行 SQL DELETE
操作。要手动更正记录,您可以使用单个 UPDATE
语句。要恢复最近删除的数据,您可以使用 SELECT
语句发出时间旅行查询。可以通过 Athena 控制台、API 操作以及 ODBC 和 JDBC 驱动程序访问 Athena 事务。
有关更多信息,请参阅 使用 Athena ACID 事务。
2021 年 11 月 24 日
发布时间:2021 年 11 月 24 日
Athena 宣布支持读取和写入采用 ZStandard
有关 Athena 中数据压缩的信息,请参阅 在 Athena 中使用压缩。
2021 年 11 月 22 日
发布时间:2021 年 11 月 22 日
您现在可以从 Amazon Athena 控制台管理 AWS Step Functions 工作流,从而更轻松地构建可扩展的数据处理管道,基于自定义业务逻辑执行查询,自动执行管理和提示任务等。
Step Functions 现已与 Athena 的升级版控制台集成,您可以使用该控制台查看调用 Athena 的状态机的交互式工作流图。要开始使用,请从左侧导航面板中选择 Workflows(工作流)。如果您有带有 Athena 查询的现有状态机,请选择一个状态机以查看交互式工作流图。如果您是 Step Functions 新手,可以通过从 Athena 控制台启动示例项目并根据您的使用案例对其进行自定义入手。
有关更多信息,请参阅使用 Amazon Athena 和 AWS Step Functions 构建和编排 ETL 管道
2021 年 11 月 18 日
发布时间:2021 年 11 月 18 日
Athena 发布新功能和改进功能。
-
对于包含
DISTINCT
、ORDER BY
或两者均含的聚合查询,支持溢出到磁盘,如以下示例所示:SELECT array_agg(orderstatus ORDER BY orderstatus) FROM orders GROUP BY orderpriority, custkey
-
解决了使用
DISTINCT
的查询的内存处理问题。为了避免使用DISTINCT
查询时显示类似以下内容的错误消息:Query exhausted resources at this scale factor
(查询耗尽此缩放系数的资源),请选择DISTINCT
基数较低的列,或者减小查询的数据大小。 -
在不会指定特定列的
SELECT COUNT(*)
查询中,现在仅保留计数而不进行行缓冲,从而提高了性能和内存使用率。 -
推出了以下字符串函数。
-
translate(source, from, to)
– 返回source
字符串,并将在from
字符串中找到的字符替换为to
字符串中的相应字符。如果from
字符串包含重复项,则只使用第一项。如果source
字符不存在于from
字符串中,则复制source
字符时不进行转换。如果from
字符串中匹配字符的索引大于to
字符串的长度,则生成的字符串中将省略该字符。 -
concat_ws(string0, array(varchar))
– 使用string0
作为分隔符,返回数组中的一串元素。如果string0
为 null,则返回值为 null。将跳过数组中的任何 null 值。
-
-
修复了在尝试访问
struct
中缺少的子字段时查询失败的错误。现在,查询针对缺少的子字段返回 null。 -
修复了十进制数据类型哈希不一致的问题。
-
修复了分区中有太多列时会导致资源耗尽的问题。
2021 年 11 月 17 日
发布时间:2021 年 11 月 17 日
Amazon Athena
在查询分区表时,Athena 会检索可用的表分区并筛选出与查询相关的子集。随着新数据和分区的添加,处理分区需要更长时间,查询运行时间可能会增加。为了优化分区处理并提升高度分区表的查询性能,Athena 现在支持 AWS Glue 分区索引。
有关更多信息,请参阅 使用 AWS Glue 分区索引和筛选来优化查询。
2021 年 11 月 16 日
发布时间:2021 年 11 月 16 日
全新的改进版 Amazon Athena
-
从经过重新设计的查询选项卡栏重新排列、导航到或关闭多个查询选项卡。
-
改进了 SQL 和文本格式,可更轻松地读取和编辑查询。
-
除了下载完整的结果集之外,还可以将查询结果复制到剪贴板。
-
对查询历史记录、保存的查询和工作组进行排序,以及选择要显示或隐藏的列。
-
使用简化的界面配置数据源和工作组,只需单击几次即可完成。
-
设置显示查询结果、查询历史记录、换行等的首选项。
-
通过全新和改进的键盘快捷键和嵌入式产品文档提高工作效率。
在今日发布后,经过重新设计的控制台
如果需要,您可以使用早期版本的控制台:登录到您的 AWS 账户,选择 Amazon Athena,然后从左侧导航面板中取消选择 New Athena experience(新 Athena 体验)。
2021 年 11 月 12 日
发布时间:2021 年 11 月 12 日
您现在可以使用 Amazon Athena 对位于您自己账户以外的 AWS 账户中的数据源运行联合查询。今天之前,查询这些数据需要数据源及其连接器才能使用与查询这些数据的用户相同的 AWS 账户。
作为数据管理员,您可以通过与数据分析师的账户共享数据连接器来启用跨账户联合查询。作为数据分析师,您可以将数据管理员与您共享的数据连接器添加到您的账户。对原始账户中连接器的配置更改将自动应用于共享连接器。
有关启用跨账户联合查询的信息,请参阅 启用跨账户联合查询。要了解有关查询联合源的信息,请参阅 使用 Amazon Athena 联合查询 和 使用联合查询。
2021 年 11 月 2 日
发布时间:2021 年 11 月 2 日
现在,您可以使用 Athena 中的 EXPLAIN ANALYZE
语句查看 SQL 查询的分布式执行计划以及每项操作的成本。
有关更多信息,请参阅 在 Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE。
2021 年 10 月 29 日
发布时间:2021 年 10 月 29 日
Athena 发布了 JDBC 2.0.25 和 ODBC 1.1.13 驱动程序,并推出了新功能和改进功能。
JDBC 和 ODBC 驱动程序
发布了适用于 Athena 的 JDBC 2.0.25 和 ODBC 1.1.13 驱动程序。这两个驱动程序都支持浏览器 SAML 多重验证,且可以配置为与任何 SAML 2.0 提供商配合使用。
JDBC 2.0.25 驱动程序包括以下更改:
-
支持浏览器 SAML 身份验证。该驱动程序包括浏览器 SAML 插件,可以配置为与任何 SAML 2.0 提供商配合使用。
-
支持 AWS Glue API 调用。您可以使用
GlueEndpointOverride
参数覆盖 AWS Glue 端点。 -
已将
com.simba.athena.amazonaws
类路径更改为com.amazonaws
。
ODBC 1.1.13 驱动程序包括以下更改:
-
支持浏览器 SAML 身份验证。该驱动程序包括浏览器 SAML 插件,可以配置为与任何 SAML 2.0 提供商配合使用。有关如何将浏览器 SAML 插件与 ODBC 驱动程序结合使用的示例,请参阅 使用 ODBC、SAML 2.0 和 Okta 身份提供商配置单点登录。
-
现在,当您使用 ADFS、Azure AD 或浏览器 Azure AD 进行身份验证时,可以配置角色会话持续时间。
有关这些更改和其他更改的更多信息以及下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
功能和改进
Athena 发布了以下功能和改进功能。
-
推出了新的优化规则,以避免在某些情况下重复表扫描。
2021 年 10 月 4 日
发布时间:2021 年 10 月 4 日
Athena 发布了以下功能和改进功能。
-
SQL OFFSET –
SELECT
语句现在支持 SQLOFFSET
子句。有关更多信息,请参阅 SELECT。 -
CloudWatch 使用情况指标 – 现在,Athena 在
AWS/Usage
命名空间中发布了ActiveQueryCount
指标。有关更多信息,请参阅 使用 CloudWatch 监控 Athena 使用情况指标。 -
查询计划 – 修复了在极少数情况下可能导致查询计划超时的错误。
2021 年 9 月 16 日
发布时间:2021 年 9 月 16 日
Athena 发布了以下新功能和改进功能。
功能
-
添加了对使用
write_compression
表属性在 CTAS 中指定文本文件和 JSON 压缩的支持。您也可以在 CTAS 中为 Parquet 和 ORC 格式指定write_compression
属性。有关更多信息,请参阅 CTAS 表属性。 -
现在支持将 BZIP2 压缩格式用于编写文本文件和 JSON 文件。有关 Athena 中压缩格式的更多信息,请参阅 在 Athena 中使用压缩。
改进
-
修复了无法将身份信息发送到 UDF Lambda 函数的错误。
-
修复了分离筛选条件的谓词下推问题。
-
修复了十进制类型的哈希问题。
-
修复了不必要的统计数据收集问题。
-
删除了不一致的错误消息。
-
通过在 Worker 节点中应用动态分区修剪,提高了广播联接性能。
-
对于联合查询:
-
更改了配置,减少了联合查询中的
CONSTRAINT_VIOLATION
错误。
-
2021 年 9 月 15 日
发布时间:2021 年 9 月 15 日
您现在可以使用经过重新设计的 Amazon Athena 控制台(预览版)。发布了新的 Athena JDBC 驱动程序。
Athena 控制台预览版
现在,您可以从已推出 Athena 的任何 AWS 区域 区域使用经过重新设计的 Amazon Athena
要切换到新控制台
立即开始使用新控制台
Athena JDBC 驱动程序 2.0.24
Athena 发布适用于 Athena 的 JDBC 驱动程序版本 2.0.24。此版本更新了对所有凭证提供商的代理支持。该驱动程序现在支持对 NonProxyHosts
连接属性不支持的所有主机进行代理身份验证。
为方便起见,此版本包括带有和不带有 AWS SDK 的 JDBC 驱动程序下载版本。此 JDBC 驱动程序版本支持同时将 AWS SDK 和 Athena JDBC 驱动程序嵌入在项目中。
有关更多信息以及要下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena。
2021 年 8 月 31 日
发布时间:2021 年 8 月 31 日
Athena 发布了以下功能增强和错误修复。
-
Athena 联合增强 – Athena 添加了对映射类型的支持,并更好地支持作为Athena Query Federation 软件开发工具包
一部分的复杂类型。此版本还包括一些内存增强功能和性能优化。 -
新错误类别 – 在错误消息中引入了
USER
和SYSTEM
错误类别。这些类别可帮助您区分可以自行修复的错误 (USER
) 和可能需要 Athena 支持帮助处理的错误 (SYSTEM
)。 -
联合查询错误消息收发 – 已更新联合查询相关错误的
USER_ERROR
分类。 -
JOIN – 修复了与溢出到磁盘相关的错误和内存问题,以提高性能并减少
JOIN
操作中的内存错误。
2021 年 8 月 12 日
发布时间:2021 年 08 月 12 日
为 Athena 发布了 ODBC 1.1.12 驱动程序。此版本纠正了与 SQLPrepare()
、SQLGetInfo()
和 EndpointOverride
相关的问题。
要下载新驱动程序、发布说明和文档,请参阅 通过 ODBC 连接到 Amazon Athena。
2021 年 8 月 6 日
发布时间:2021 年 8 月 6 日
Amazon Athena 宣布 Athena 和其功能
此版本扩展了 Athena 在亚太地区的可用性,包括亚太地区(香港)、亚太地区(孟买)、亚太地区(大阪)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)和亚太地区(东京)。有关在这些区域和其他区域提供的 AWS 服务 的完整列表,请参阅 AWS 区域 服务列表
2021 年 8 月 5 日
发布时间:2021 年 8 月 5 日
您可以使用 UNLOAD
语句将 SELECT
查询的输出写为 PARQUET、ORC、AVRO 和 JSON 格式。
有关更多信息,请参阅 UNLOAD。
2021 年 7 月 30 日
发布时间:2021 年 7 月 30 日
Athena 发布了以下功能增强和错误修复。
-
动态筛选和分区修剪 – 改进提高了性能,减少了在某些查询中扫描的数据量,如以下示例所示。
此示例假定
Table_B
是一个未分区的表,其文件大小总量小于 20 MB。对于这样的查询,从Table_A
读取的数据量较少,查询完成的速度也会更快。SELECT * FROM Table_A JOIN Table_B ON Table_A.date = Table_B.date WHERE Table_B.column_A = "value"
-
ORDER BY with LIMIT,DISTINCT with LIMIT – 改进了使用
ORDER BY
或DISTINCT
且后面跟一个LIMIT
子句的查询的性能。 -
S3 Glacier Deep Archive 文件 – 当 Athena 查询同时包含 S3 Glacier Deep Archive 文件和非 S3 Glacier 文件的表时,Athena 现在将为您跳过 S3 Glacier Deep Archive 文件。以前,您需要手动将这些文件从查询位置移走,否则查询将失败。如果要使用 Athena 查询 S3 Glacier Deep Archive 存储中的对象,则必须还原这些文件。有关更多信息,请参阅《Amazon S3 用户指南》中的恢复已归档的对象。
-
修复了 CTAS
bucketed_by
表属性创建的空文件未正确加密的错误。
2021 年 7 月 21 日
发布时间:2021 年 7 月 21 日
借助 2021 年 7 月发布的 Microsoft Power BI Desktop
由于连接器使用现有的 ODBC 数据源名称 (DSN) 连接到 Athena 并在其上运行查询,因此它需要 Athena ODBC 驱动程序。要下载最新的 ODBC 驱动程序,请参阅 通过 ODBC 连接到 Amazon Athena。
有关更多信息,请参阅 使用 Amazon Athena Power BI 连接器。
2021 年 7 月 16 日
发布时间:2021 年 7 月 16 日
Amazon Athena 已经更新了与 Apache Hudi 的集成。Hudi 是一种开源数据管理框架,用于简化 Amazon S3 数据湖中的增量数据处理。更新的集成使您能够使用 Athena 查询通过 Amazon EMR、Apache Spark、Apache Hive 或其他兼容服务管理的 Hudi 0.8.0 表。此外,Athena 现在还支持两个附加功能:对读取时合并 (MOR) 表进行快照查询,以及对引导启动表的读取支持。
Apache Hudi 提供记录级别的数据处理,可帮助您简化变更数据捕获 (CDC) 管道的开发,遵守以欧盟《一般数据保护条例(GDPR)》为宗旨的更新和删除操作,并更好地管理来自需要数据插入和事件更新的传感器或设备的流数据。0.8.0 版本可以更轻松地将大型 Parquet 表迁移到 Hudi,而无需复制数据,因此您可以通过 Athena 对其进行查询和分析。您可以使用 Athena 对快照查询的新支持来获得串流表更新的近实时视图。
要了解有关将 Hudi 与 Athena 结合使用的更多信息,请参阅 查询 Apache Hudi 数据集。
2021 年 7 月 8 日
发布时间:2021 年 7 月 8 日
为 Athena 发布了 ODBC 1.1.11 驱动程序。ODBC 驱动程序现在可以使用 JSON Web Token (JWT) 对连接进行身份验证了。在 Linux 上,“Workgroup”属性的默认值已设置为“Primary”。
有关更多信息以及要下载新驱动程序、发布说明和文档,请参阅 通过 ODBC 连接到 Amazon Athena。
2021 年 7 月 1 日
发布时间:2021 年 7 月 1 日
2021 年 7 月 1 日,预览工作组的特殊处理结束。尽管 AmazonAthenaPreviewFunctionality
工作组仍保留了其名称,但其不再具有特殊地位。您可以继续使用 AmazonAthenaPreviewFunctionality
工作组来查看、修改、组织和运行查询。但是,使用以前在预览版本中功能的查询现在受标准 Athena 计费条款和条件的约束。有关定价的信息,请参阅 Amazon Athena 定价
2021 年 6 月 23 日
发布时间:2021 年 6 月 23 日
为 Athena 发布了 JDBC 2.0.23 和 ODBC 1.1.10 驱动程序。这两个驱动程序都提供了更好的读取性能,并支持 EXPLAIN 语句和参数化查询。
EXPLAIN
语句显示 SQL 查询的逻辑或分布式执行计划。参数化查询使同一查询能够多次使用,并且在运行时提供不同的值。
JDBC 版本还添加了对 Active Directory Federation Services 2019 的支持,以及适用于 AWS STS 的自定义端点覆盖选项。ODBC 版本修复了 IAM 配置文件凭证的问题。
有关详细信息以及下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
2021 年 5 月 12 日
发布时间:2021 年 5 月 12 日
您现在可以使用 Amazon Athena 从除您自己以外的账户中注册一个 AWS Glue 目录了。在您为 AWS Glue 配置所需的 IAM 权限之后,就可以使用 Athena 运行跨账户查询。
有关更多信息,请参阅 从其他账户注册数据目录 和 配置 AWS Glue 数据目录的跨账户存取。
2021 年 5 月 10 日
发布时间:2021 年 05 月 10 日
为 Athena 发布了 ODBC 驱动程序版本 1.1.9.1001。此版本修复了使用 Azure Active Directory (AD) 时的 BrowserAzureAD
身份验证类型问题。
要下载新驱动程序、发布说明和文档,请参阅 通过 ODBC 连接到 Amazon Athena。
2021 年 5 月 5 日
发布时间:2021 年 5 月 5 日
现在,您可以在联合查询中使用 Amazon Athena Vertica 连接器来查询来自 Athena 的 Vertica 数据源了。例如,您可以通过 Vertica 上的数据仓库和 Amazon S3 中的数据湖运行分析查询。
要部署 Athena Vertica 连接器,请访问 AWS Serverless Application Repository 中的 AthenaVerticaConnector
Amazon Athena Vertica 连接器通过 Lambda 环境变量显示了多个配置选项。有关配置选项、参数、连接字符串、部署和限制的信息,请参阅 Amazon Athena Vertica 连接器。
有关使用 Vertica 连接器的深入信息,请参阅 AWS 大数据博客中的使用 Athena 联合查询软件开发工具包 在 Amazon Athena 中查询 Vertica 数据源
2021 年 4 月 30 日
发布时间:2021 年 4 月 30 日
为 Athena 发布了驱动程序 JDBC 2.0.21 和 ODBC 1.1.9。这两个版本都支持使用 Azure Active Directory (AD) 进行 SAML 身份验证,以及使用 PingFederate SAML 身份验证。JDBC 版本还支持参数化查询。有关 Athena 中的参数化查询的信息,请参阅 使用参数化查询。
要下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
2021 年 4 月 29 日
发布时间:2021 年 4 月 29 日
Amazon Athena 宣布在中国(北京)和中国(宁夏)区域推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2021 年 4 月 26 日
发布时间:2021 年 4 月 26 日
Athena 引擎版本 2 中的窗口值函数现在支持 IGNORE NULLS
和 RESPECT NULLS
。
有关更多信息,请参阅 Presto 文档中的值函数
2021 年 4 月 21 日
发布时间:2021 年 4 月 21 日
Amazon Athena 宣布在欧洲(米兰)和非洲(开普敦)区域推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2021 年 4 月 5 日
发布时间:2021 年 4 月 5 日
EXPLAIN 语句
现在,您可以使用 Athena 中的 EXPLAIN
语句查看 SQL 查询的执行计划。
有关更多信息,请参阅 在 Athena 中使用 EXPLAIN 和 EXPLAIN ANALYZE 和 了解 Athena EXPLAIN 语句结果。
在 SQL 查询中的 SageMaker 机器学习模型
使用 Amazon SageMaker 的机器学习模型推理现已在 Amazon Athena 中公开提供。在 SQL 查询中使用机器学习模型可通过在 SQL 查询中调用函数让复杂的任务(例如异常检测、客户群分析和时间序列预测)变得简单。
有关更多信息,请参阅 将机器学习(ML)与 Amazon Athena 结合使用。
用户定义的函数 (UDF)
用户定义的函数 (UDF) 现已在 Athena 中公开提供。使用 UDF 可以利用自定义函数来处理单个 SQL 查询中的记录或记录组。
有关更多信息,请参阅 使用用户定义函数进行查询。
2021 年 3 月 30 日
发布时间:2021 年 3 月 30 日
Amazon Athena 宣布在亚太地区(香港)和中东(巴林)区域推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2021 年 3 月 25 日
发布时间:2021 年 3 月 25 日
Amazon Athena 宣布在欧洲(斯德哥尔摩)区域推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2021 年 3 月 5 日
发布时间:2021 年 3 月 5 日
Amazon Athena 宣布在加拿大(中部)、欧洲(法兰克福)和南美洲(圣保罗)区域推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2021 年 2 月 25 日
发布时间:2021 年 2 月 25 日
Amazon Athena 宣布在亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、欧洲(伦敦)和欧洲(巴黎)区域中推出 Athena 引擎版本 2。
有关 Athena 引擎版本 2 的更多信息,请参阅 Athena 引擎版本 2。
2020 年的 Athena 发布说明
2020 年 12 月 16 日
发布时间:2020 年 12 月 16 日
Amazon Athena 宣布在其他区域推出 Athena 引擎版本 2、Athena 联合查询和 AWS PrivateLink。
Athena 引擎版本 2 和 Athena 联合查询
Amazon Athena 宣布在亚太地区(孟买)、亚太地区(东京)、欧洲(爱尔兰)和美国西部(加利福尼亚北部)区域中推出 Athena 引擎版本 2 和 Athena 联合查询。Athena 引擎版本 2 和联合查询已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)区域中提供。
有关更多信息,请参阅 Athena 引擎版本 2 和 使用 Amazon Athena 联合查询。
AWS PrivateLink
适用于 Athena 的 AWS PrivateLink 现已在欧洲(斯德哥尔摩)区域受支持。有关适用于 Athena 的 AWS PrivateLink 的信息,请参阅 使用接口 VPC 终端节点连接到 Amazon Athena。
2020 年 11 月 24 日
发布时间:2020 年 11 月 24 日
为 Athena 发布了驱动程序 JDBC 2.0.16 和 ODBC 1.1.6。这些版本在账户级别支持 Okta 验证多重身份验证 (MFA)。您还可以使用 Okta MFA 将 SMS 身份验证和 Google Authenticator 身份验证配置为验证因素。
要下载新驱动程序、发布说明和文档,请参阅 通过 JDBC 连接到 Amazon Athena 和 通过 ODBC 连接到 Amazon Athena。
2020 年 11 月 11 日
发布时间:2020 年 11 月 11 日
Amazon Athena 宣布在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)和美国西部(俄勒冈)区域中推出 Athena 引擎版本 2 和联合查询。
Athena 引擎版本 2
Amazon Athena 宣布在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)和美国西部(俄勒冈)区域中推出新查询引擎版本:Athena 引擎版本 2。
Athena 引擎版本 2 包括性能增强和新功能,例如对 Parquet 格式数据的架构演变支持、附加的地理空间函数、支持读取嵌套架构以降低成本以及 JOIN 和 AGGREGATE 操作中的性能增强。
-
有关改进、突破性更改和错误修复的信息,请参阅 Athena 引擎版本 2、
-
有关如何升级的信息,请参阅 更改 Athena 引擎版本。
-
有关测试查询的信息,请参阅 在引擎版本升级之前测试查询。
联合 SQL 查询
现在,您可以在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)和美国西部(俄勒冈)区域中使用 Athena 的联合查询,而无需使用 AmazonAthenaPreviewFunctionality
工作组。
使用联合 SQL 查询跨关系数据来源、非关系数据来源、对象数据来源和自定义数据来源运行 SQL 查询。通过联合查询,您可以通过提交一个 SQL 查询,扫描来自本地运行或托管在云中的多个来源的数据。
由于如下原因,对分布在应用程序之间的数据进行分析可能很复杂且耗时:
-
分析所需的数据通常分布在关系、键值、文档、内存、搜索、图形、对象、时间序列和分类账数据存储中。
-
为了分析跨这些来源的数据,分析师需要构建复杂的管道,来将这些数据提取、转换和加载到数据仓库中,以便可以进行查询。
-
访问各种来源中的数据需要学习新的编程语言和数据访问构造。
Athena 中的联合 SQL 查询允许用户在不移动数据的情况下进行查询,消除了这种复杂性。分析师可以使用熟悉的 SQL 构造跨多个数据源 JOIN
数据以进行快速分析,并将结果存储在 Amazon S3 中以备随后使用。
数据来源连接器
要处理联合查询,Athena 会使用在 AWS Lambda
自定义数据来源连接器
使用 Athena Query Federation 软件开发工具包
后续步骤
-
要了解有关联合查询功能的详细信息,请参阅 使用 Amazon Athena 联合查询。
-
要开始使用现有连接器,请参阅部署连接器并连接到数据来源。
-
要了解如何使用 Athena Query Federation 软件开发工具包构建自己的数据源连接器,请参阅 GitHub 上的示例 Athena 连接器
。
2020 年 10 月 22 日
发布时间:2020 年 10 月 22 日
您现在可以使用 AWS Step Functions 调用 Athena 了。AWS Step Functions 可以使用 Amazon States Language 直接控制特定的 AWS 服务。您可以将 Step 函数与 Athena 结合使用,以启动和停止查询执行、获取查询结果、运行临时或计划数据查询,以及从 Amazon S3 中的数据湖检索结果。
有关更多信息,请参阅《AWS Step Functions 开发人员指南》中的使用 Step Functions 调用 Athena。
2020 年 7 月 29 日
发布时间:2020 年 7 月 29 日
发布了 JDBC 驱动程序版本 2.0.13。此版本支持使用多个在 Athena 中注册的数据目录、用于身份验证的 Okta 服务以及与 VPC 终端节点的连接。
要下载和使用驱动程序的新版本,请参阅 通过 JDBC 连接到 Amazon Athena。
2020 年 7 月 9 日
发布时间:2020 年 7 月 9 日
Amazon Athena 添加了对查询压缩的 Hudi 数据集的支持,并添加了 AWS CloudFormation AWS::Athena::DataCatalog
资源,用于创建、更新或删除您在 Athena 中注册的数据目录。
查询 Apache Hudi 数据集
Apache Hudi是一个开源数据管理框架,可简化增量递增数据的处理。Amazon Athena 现在支持查询基于 Amazon S3 的数据湖中 Apache Hudi 数据集的读取优化视图。
有关更多信息,请参阅 查询 Apache Hudi 数据集。
AWS CloudFormation Data Catalog 资源
要使用 Amazon Athena 的联合查询功能查询任何数据源,则必须首先在 Athena 中注册您的数据目录。现在,您可以使用 AWS CloudFormation AWS::Athena::DataCatalog
资源以创建、更新或删除您在 Athena 中注册的数据目录。
有关更多信息,请参阅《AWS CloudFormation 用户指南》中的 AWS::Athena::DataCatalog。
2020 年 6 月 1 日
发布时间:2020 年 6 月 1 日
通过 Amazon Athena 将 Apache Hive 元数据仓用作元目录
现在,您除了适用于 Athena 的 AWS Glue Data Catalog 之外,还可以将 Athena 连接到一个或多个 Apache Hive 元数据仓。
要连接到自托管的 Hive 元数据仓,您需要一个 Athena Hive 元数据仓连接器。Athena 提供了您可以使用的参考实施连接器。该连接器在您的账户中作为 AWS Lambda 函数运行。
有关更多信息,请参阅 使用外部 Hive 元存储。
2020 年 5 月 21 日
发布时间:2020 年 5 月 21 日
Amazon Athena 增加了对分区投影的支持。使用分区投影可加快对高度分区表的查询处理,并自动执行分区管理。有关更多信息,请参阅 将分区投影与 Amazon Athena 结合使用。
2020 年 4 月 1 日
发布时间:2020 年 4 月 1 日
除了美国东部(弗吉尼亚北部)区域之外,Amazon Athena 联合查询、用户定义函数(UDF)、机器学习推理和外部 Hive 元数据仓功能现已在亚太地区(孟买)、欧洲(爱尔兰)和美国西部(俄勒冈)区域开放预览。
2020 年 3 月 11 日
发布时间:2020 年 3 月 11 日
Amazon Athena 现在为查询状态转换发布 Amazon EventBridge 事件。在多个状态间进行查询转换时(例如从“正在运行”状态转换至“成功”或“已取消”等最终状态),Athena 将向 EventBridge 发布一个查询状态变更事件。该事件包含有关查询状态转换的信息。有关更多信息,请参阅 使用 EventBridge 监控 Athena 查询事件。
2020 年 3 月 6 日
发布时间:2020 年 3 月 6 日
现在,您可以使用 AWS CloudFormation AWS::Athena::WorkGroup
资源来创建和更新 Amazon Athena 工作组。有关更多信息,请参阅《AWS CloudFormation 用户指南》中的 AWS::Athena::WorkGroup。
2019 年的 Athena 发布说明
2019 年 11 月 26 日
发布时间:2019 年 12 月 17 日
Amazon Athena 添加了如下支持:跨关系数据源、非关系数据源、对象数据源和自定义数据源运行 SQL 查询;在 SQL 查询、用户定义函数 (UDF) 中调用机器学习模型(预览版);通过 Amazon Athena 使用 Apache Hive 元数据仓作为元数据目录(预览版),以及四个附加查询相关指标。
联合 SQL 查询
使用联合 SQL 查询跨关系数据来源、非关系数据来源、对象数据来源和自定义数据来源运行 SQL 查询。
现在,您可以使用 Athena 的联合查询来扫描存储在关系数据源、非关系数据源、对象数据源和自定义数据源中的数据。通过联合查询,您可以通过提交一个 SQL 查询,扫描来自本地运行或托管在云中的多个来源的数据。
由于如下原因,对分布在应用程序之间的数据进行分析可能很复杂且耗时:
-
分析所需的数据通常分布在关系、键值、文档、内存、搜索、图形、对象、时间序列和分类账数据存储中。
-
为了分析跨这些来源的数据,分析师需要构建复杂的管道,来将这些数据提取、转换和加载到数据仓库中,以便可以进行查询。
-
访问各种来源中的数据需要学习新的编程语言和数据访问构造。
Athena 中的联合 SQL 查询允许用户在不移动数据的情况下进行查询,消除了这种复杂性。分析师可以使用熟悉的 SQL 构造跨多个数据源 JOIN
数据以进行快速分析,并将结果存储在 Amazon S3 中以备随后使用。
数据来源连接器
Athena 会使用在 AWS Lambda
自定义数据来源连接器
使用 Athena Query Federation 软件开发工具包
预览可用性
Athena 联合查询在美国东部(弗吉尼亚北部)区域中推出了预览版。
后续步骤
-
要开始预览,请按照 Athena 预览功能常见问题
中的说明进行操作。 -
要了解有关联合查询功能的详细信息,请参阅使用 Amazon Athena 联合查询(预览版)。
-
要开始使用现有连接器,请参阅部署连接器并连接到数据来源。
-
要了解如何使用 Athena Query Federation 软件开发工具包构建自己的数据源连接器,请参阅 GitHub 上的示例 Athena 连接器
。
在 SQL 查询中调用机器学习模型
您现在可以调用机器学习模型,以直接从您的 Athena 查询中获得推理。在 SQL 查询中使用机器学习模型可让复杂的任务(例如异常检测、客户群分析和销售预测)变得像在 SQL 查询中调用函数一样简单。
ML 模型
您可以使用 Amazon SageMaker
预览可用性
Athena 的机器学习功能现已在美国东部(弗吉尼亚北部)区域中提供预览版。
后续步骤
-
要开始预览,请按照 Athena 预览功能常见问题
中的说明进行操作。 -
要了解有关机器学习功能的详细信息,请参阅将机器学习 (ML) 与 Amazon Athena(预览版)结合使用。
用户定义函数 (UDF)(预览版)
您可以编写自定义标量函数,并在您的 Athena 查询中调用它们。您可以使用 Athena Query Federation 软件开发工具包SELECT
和 FILTER
子句中使用。您可以在同一查询中调用多个 UDF。
预览可用性
Athena UDF 功能在美国东部(弗吉尼亚北部)区域中提供预览版模式。
后续步骤
-
要开始预览,请按照 Athena 预览功能常见问题
中的说明进行操作。 -
要了解更多信息,请参阅使用用户定义的函数进行查询(预览)。
-
有关 UDF 实现的示例,请参阅 GitHub 上的 Amazon Athena UDF Connector
。 -
要了解如何使用 Athena Query Federation 软件开发工具包编写自己的函数,请参阅使用 Lambda 创建和部署 UDF。
通过 Amazon Athena(预览版)将 Apache Hive 元数据仓用作元目录
现在,您除了适用于 Athena 的 AWS Glue Data Catalog 之外,还可以将 Athena 连接到一个或多个 Apache Hive 元数据仓。
元数据仓连接器
要连接到自托管的 Hive 元数据仓,您需要一个 Athena Hive 元数据仓连接器。Athena 提供了您可以使用的参考
预览可用性
Hive 元数据仓功能在美国东部(弗吉尼亚北部)区域中在预览模式中可用。
后续步骤
-
要开始预览,请按照 Athena 预览功能常见问题
中的说明进行操作。 -
要了解有关此功能的更多信息,请访问我们的将 Athena 数据连接器用于外部 Hive 元数据仓(预览版)。
与查询相关的新指标
Athena 现在发布其他查询指标,以帮助您了解 Amazon Athena
-
Query Planning Time(查询计划时间)– 计划查询所花费的时间。这包括从数据源检索表分区所花费的时间。
-
Query Queuing Time(查询队列时间)– 查询在队列中等待资源的时间。
-
Service Processing Time(服务处理时间)– 查询引擎完成执行后写入结果所需的时间。
-
Total Execution Time(总执行时间)– Athena 运行查询所花费的时间。
要使用这些新的查询指标,您可以创建自定义控制面板,在 CloudWatch 中设置指标的警报和触发器,或者直接从 Athena 控制台使用预填充的控制面板。
后续步骤
有关更多信息,请参阅使用 CloudWatch 指标监控 Athena 查询。
2019 年 11 月 12 日
发布时间:2019 年 12 月 17 日
Amazon Athena 现已在中东(巴林)区域提供。
2019 年 11 月 8 日
发布时间:2019 年 12 月 17 日
Amazon Athena 现已在美国西部(加利福尼亚北部)和欧洲(巴黎)区域推出。
2019 年 10 月 8 日
发布时间:2019 年 12 月 17 日
Amazon Athena
要创建接口 VPC 终端节点以连接到 Athena,您可以使用 AWS Management Console 或 AWS Command Line Interface (AWS CLI)。有关创建接口终端节点的信息,请参阅创建接口终端节点。
在使用接口 VPC 终端节点时,您的 VPC 与 Athena API 之间的通信是安全的,并且一直处于 AWS 网络中。使用此功能不会产生额外的 Athena 费用。适用接口 VPC 终端节点费用
要了解有关此功能的更多信息,请参阅使用接口 VPC 终端节点连接到 Amazon Athena。
2019 年 9 月 19 日
发布时间:2019 年 12 月 17 日
Amazon Athena 添加了对使用 INSERT INTO
语句向现有表插入新数据的支持。您可以基于在源表上运行的 SELECT
查询语句,或基于作为查询语句的一部分提供的一组值,将新行插入到目标表中。支持的数据格式包括 Avro、JSON、ORC、Parquet 和文本文件。
INSERT INTO
语句还可以帮助您简化 ETL 流程。例如,您可以在单一查询中使用 INSERT INTO
从 JSON 格式的源表中选择数据,并以 Parquet 格式写入目标表。
INSERT INTO
语句将根据在 SELECT
阶段中扫描的字节数收费,类似于 Athena 对 SELECT
查询进行收费的方式。有关更多信息,请参阅 Amazon Athena 定价
有关使用 INSERT INTO
的更多信息,包括支持的格式、SerDes 和示例,请参阅《Athena 用户指南》中的 INSERT INTO。
2019 年 9 月 12 日
发布时间:2019 年 12 月 17 日
Amazon Athena 现已在亚太地区(香港)区域中提供。
2019 年 8 月 16 日
发布时间:2019 年 12 月 17 日
Amazon Athena
将 Amazon S3 存储桶配置为申请方付款时,申请方而非存储桶拥有者将支付 Amazon S3 请求和数据传输费用。在 Athena 中,工作组管理员现在可以配置工作组设置,以允许工作组成员查询 S3 申请方付款存储桶。
有关如何为您的工作组配置申请方付款设置的信息,请参阅《Amazon Athena 用户指南》中的创建工作组。有关申请方付款存储桶的更多信息,请参阅《Amazon Simple Storage Service 开发人员指南》中的申请方付款存储桶。
2019 年 8 月 9 日
发布时间:2019 年 12 月 17 日
Amazon Athena 现在支持强制执行 AWS Lake Formation
您可以在以下 AWS 区域 使用此功能:美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(爱尔兰)。使用此功能不会产生额外的费用。
有关使用此功能的更多信息,请参阅使用 Athena 查询注册到 AWS Lake Formation 的数据。有关 AWS Lake Formation 的更多信息,请参阅 AWS Lake Formation
2019 年 6 月 26 日
Amazon Athena 现已在欧洲(斯德哥尔摩)区域推出。有关受支持的区域列表,请参阅 AWS 区域 和端点。
2019 年 5 月 24 日
发布时间:2019 年 5 月 24 日
Amazon Athena 现已在 AWS GovCloud(美国东部)和 AWS GovCloud(美国西部)区域提供。有关受支持的区域列表,请参阅 AWS 区域 和端点。
2019 年 3 月 5 日
发布时间:2019 年 3 月 5 日
Amazon Athena 现已在加拿大(中部)区域中提供。有关受支持的区域列表,请参阅 AWS 区域 和端点。发布新版本的 ODBC 驱动程序,支持 Athena 工作组。有关更多信息,请参阅 ODBC 驱动程序发行说明
要下载 ODBC 驱动程序版本 1.0.5 及其文档,请参阅通过 ODBC 连接到 Amazon Athena。有关此版本的更多信息,请参阅 ODBC 驱动程序发行说明
要将工作组与 ODBC 驱动程序结合使用,请在连接字符串中设置新连接属性 Workgroup
,如以下示例所示:
Driver=Simba Athena ODBC Driver;AwsRegion=[Region];S3OutputLocation=[S3Path];AuthenticationType=IAM Credentials;UID=[YourAccessKey];PWD=[YourSecretKey];Workgroup=[WorkgroupName]
有关更多信息,请在《ODBC 驱动程序安装和配置指南版本 1.0.5
此驱动程序版本可让您使用 Athena API 工作组操作来创建和管理工作组,使用 Athena API 标签操作来添加、列出或删除工作组上的标签。在您开始之前,请确保您在 IAM 中拥有资源级别的权限以对工作组和标签执行操作。
有关更多信息,请参阅:
如果您使用 JDBC 驱动程序或 AWS 软件开发工具包,请升级到驱动程序和开发工具包的最新版本,这二者均已包含对 Athena 中工作组和标签的支持。有关更多信息,请参阅 通过 JDBC 连接到 Amazon Athena。
2019 年 2 月 22 日
发布时间:2019 年 2 月 22 日
Amazon Athena 中添加了工作组的标签支持。标签包含您定义的一个键和一个值。您在标记工作组时,将为其分配自定义元数据。您可以根据 AWS 标记最佳实践,将标签添加到工作组以帮助进行分类。您可以使用标签限制对工作组的访问,以及用于跟踪成本。例如,为每个成本中心创建一个工作组。然后,通过将标签添加到这些组,您可以跟踪每个成本中心的 Athena 支出。有关更多信息,请参阅《AWS Billing and Cost Management 用户指南》中的使用账单标签。
您可以通过 Athena 控制台或 API 操作来使用标签。有关更多信息,请参阅 标记 Athena 资源。
在 Athena 控制台中,您可以将一个或多个标签添加到每个工作组并按标签进行搜索。工作组是 Athena 中 IAM 控制的资源。在 IAM 中,您可以限制哪些人可以在您创建的工作组上添加、删除或列出标签。您还可以使用具有可选标签参数的 CreateWorkGroup
API 操作,向工作组添加一个或多个标签。要添加、删除或列出标签,请使用 TagResource
、UntagResource
和 ListTagsForResource
。有关更多信息,请参阅 使用 API 和 AWS CLI 标签操作。
要允许用户在创建工作组时添加标签,请确保您向每个用户授予 TagResource
和 CreateWorkGroup
API 操作的 IAM 权限。有关更多信息以及示例,请参阅 使用基于标签的 IAM 访问控制策略。
在工作组上使用标签时,对 JDBC 驱动程序没有更改。如果您创建新的工作组,并使用 JDBC 驱动程序或 AWS 软件开发工具包,则需要升级到最新版本的驱动程序和开发工具包。有关信息,请参阅通过 JDBC 连接到 Amazon Athena。
2019 年 2 月 18 日
发布时间:2019 年 2 月 18 日
添加了通过在工作组中运行查询来控制成本的功能。有关信息,请参阅使用工作组控制查询访问和成本。改进了在 Athena 中使用的 JSON OpenX SerDe,修复了 Athena 不忽略转换为 GLACIER
存储类别的对象的问题,并添加了用于查询 Network Load Balancer 日志的示例。
进行了以下更改:
-
添加对工作组的支持。可使用工作组分隔用户、团队、应用程序或工作负载,并对每个查询或整个工作组可处理的数据量设置限制。由于工作组用作 IAM 资源,所以您可以使用资源级别的权限来控制对特定工作组的访问。您还可以在 Amazon CloudWatch 中查看与查询相关的指标、通过配置扫描的数据量限制来控制查询成本、创建阈值以及在突破这些阈值时触发操作,例如 Amazon SNS 告警。有关更多信息,请参阅使用工作组控制查询访问和成本 和使用 CloudWatch 和 EventBridge 监控查询并控制成本。
工作组是 IAM 资源。有关 IAM 中与工作组相关的操作、资源和条件的完整列表,请参阅服务授权参考中的 Amazon Athena 的操作、资源和条件键。创建新的工作组之前,请确保您使用的是工作组 IAM policy 和 AWS 托管策略:AmazonAthenaFullAccess。
您可以在控制台中、通过工作组 API 操作或通过 JDBC 驱动程序使用工作组。有关创建工作组的信息,请参阅 创建工作组。要下载具有工作组支持的 JDBC 驱动程序,请参阅通过 JDBC 连接到 Amazon Athena。
如果您将工作组与 JDBC 驱动程序结合使用,则必须使用
Workgroup
配置参数在连接字符串中设置工作组名称,如下面的示例所示:jdbc:awsathena://AwsRegion=
<AWSREGION>
;UID=<ACCESSKEY>
; PWD=<SECRETKEY>
;S3OutputLocation=s3://amzn-s3-demo-bucket/<athena-output>
-<AWSREGION>
/; Workgroup=<WORKGROUPNAME>
;您运行 SQL 语句或者对驱动程序进行 JDBC API 调用的方式没有更改。驱动程序将工作组名称传递到 Athena。
要了解工作组引入的区别,请参阅 使用 Athena 工作组 API和对工作组错误进行故障排除。
-
改进了 Athena 中使用的 JSON OpenX SerDe。这些改进包括但不限于以下内容:
-
支持
ConvertDotsInJsonKeysToUnderscores
属性。设置为TRUE
时,它允许 SerDe 使用下划线替换键名称中的点。例如,如果 JSON 数据集包含名为"a.b"
的键,您可以在 Athena 中使用此属性来定义列名"a_b"
。默认为FALSE
。预设情况下,Athena 不允许在列名中使用点。 -
支持
case.insensitive
属性。预设情况下,Athena 要求 JSON 数据集中的所有键使用小写。使用WITH SERDE PROPERTIES ("case.insensitive"= FALSE;)
允许您在数据中使用区分大小写的键名。默认为TRUE
。设置为TRUE
时,SerDe 将所有大写列转换为小写。
有关更多信息,请参阅 OpenX JSON SerDe。
-
-
修复了 Athena 在处理由 Amazon S3 生命周期策略存档到 Glacier 中的 Amazon S3 对象时,返回
"access denied"
错误消息的问题。作为修复此问题的结果,Athena 将忽略转换为GLACIER
存储类别的对象。Athena 不支持查询GLACIER
存储类中的数据。有关更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的 Amazon S3 注意事项 和转换为 GLACIER 存储类(对象归档)。
-
添加了查询 Network Load Balancer 访问日志的示例,该日志接收有关传输层安全性 (TLS) 请求的信息。有关更多信息,请参阅 查询网络负载均衡器日志。
2018 年的 Athena 发布说明
2018 年 11 月 20 日
发布时间:2018 年 11 月 20 日
发布了 JDBC 和 ODBC 驱动程序的新版本,支持通过 AD FS 和 SAML 2.0 (安全断言标记语言 2.0)对 Athena API 的联合访问。有关详细信息,请参阅 JDBC 驱动程序发行说明
在此版本中,Active Directory 联合身份验证服务 (AD FS 3.0) 支持对 Athena 的联合访问。访问通过支持 SAML 2.0 的 JDBC 或 ODBC 驱动程序版本建立。有关配置对 Athena API 联合访问的信息,请参阅 启用对 Athena API 的联合访问。
要下载 JDBC 驱动程序版本 2.0.6 及其文档,请参阅通过 JDBC 连接到 Amazon Athena。有关此版本的更多信息,请参阅 JDBC 驱动程序发布说明
要下载 ODBC 驱动程序版本 1.0.4 及其文档,请参阅通过 ODBC 连接到 Amazon Athena。有关此版本的更多信息,请参阅 ODBC 驱动程序发布说明
有关 AWS 中 SAML 2.0 支持更多信息,请参阅《IAM 用户指南》中的关于 SAML 2.0 联合验证。
2018 年 10 月 15 日
发布时间:2018 年 10 月 15 日
如果已升级到 AWS Glue Data Catalog,则有对以下各项提供支持的两个新功能:
-
Data Catalog 元数据的加密。如果选择加密 Data Catalog 中的元数据,则必须将特定策略添加到 Athena。有关更多信息,请参阅访问 AWS Glue Data Catalog 中的加密元数据。
-
对 AWS Glue Data Catalog 中的资源的精细访问权限。现在,您可以定义基于身份的 (IAM) 策略,这类策略限制或允许访问 Athena 中使用的 Data Catalog 中的特定数据库和表。有关更多信息,请参阅 在 AWS Glue Data Catalog 中配置对数据库和表的访问。
注意
数据位于 Amazon S3 存储桶中,并且数据访问权限由 控制从 Athena 对 Amazon S3 的访问 控制。要访问数据库和表中的数据,请继续将访问控制策略用于存储该数据的 Amazon S3 存储桶。
2018 年 10 月 10 日
发布时间:2018 年 10 月 10 日
Athena 支持 CREATE TABLE AS SELECT
,这会从 SELECT
查询语句的结果创建表。有关详细信息,请参阅从查询结果创建表 (CTAS)。
创建 CTAS 查询之前,请务必在 Athena 文档中了解其行为。它包含下列相关信息:在 Amazon S3 中保存查询结果的位置,存储 CTAS 查询结果支持的格式列表,可以创建的分区数,以及支持的压缩格式。有关更多信息,请参阅 CTAS 查询的注意事项和限制。
使用 CTAS 查询可以:
-
在一个步骤中从查询结果创建表。
-
在 Athena 控制台中创建 CTAS 查询,使用示例。有关语法的信息,请参阅 CREATE TABLE AS。
-
将查询结果转换其他存储格式,例如 Parquet、ORC、AVRO、JSON 和 TEXTFILE。有关更多信息,请参阅CTAS 查询的注意事项和限制 和使用列式存储格式。
2018 年 9 月 6 日
发布时间:2018 年 9 月 06 日
发布了 ODBC 驱动程序新版本 (版本 1.0.3)。预设情况下,新版本的 ODBC 驱动程序会流式处理结果,而不是通过结果处理分页,从而允许商业智能工具更快地检索大型数据集。此版本还包括改进、错误修复以及对“将 SSL 与代理服务器结合使用”的文档更新。有关详细信息,请参阅该驱动程序的发行说明
有关下载 ODBC 驱动程序版本 1.0.3 及其文档的信息,请参阅通过 ODBC 连接到 Amazon Athena。
流式处理结果功能适用于此新版本的 ODBC 驱动程序。它不适用于 JDBC 驱动程序。有关流式处理结果的信息,请参阅《ODBC 驱动程序安装和配置指南
ODBC 驱动程序版本 1.0.3 是该驱动程序的前一个版本的简易替代。建议迁移到最新驱动程序。
重要
要使用 ODBC 驱动程序版本 1.0.3,请遵循以下要求:
-
保持端口 444 对出站流量开放。
-
将
athena:GetQueryResultsStream
策略操作添加到 Athena 的策略列表中。此策略操作不会直接通过 API 公开,仅作为流式处理结果支持的一部分与 ODBC 以及 JDBC 驱动程序一起使用。有关策略示例,请参阅AWS 托管策略:AWSQuicksightAthenaAccess。
2018 年 8 月 23 日
发布时间:2018 年 8 月 23 日
添加了对这些 DDL 相关的功能的支持并且修复了几个错误,如下所示:
-
添加了对 Parquet 格式的数据的
BINARY
和DATE
数据类型以及 Avro 格式的数据的DATE
和TIMESTAMP
数据类型的支持。 -
添加了对 DDL 查询中的
INT
和DOUBLE
的支持。INTEGER
是INT
的别名,DOUBLE PRECISION
是DOUBLE
的别名。 -
改进了
DROP TABLE
和DROP DATABASE
查询的性能。 -
删除了在数据存储桶为空是在 Amazon S3 中创建
_$folder$
对象的操作。 -
修复了在未提供任何分区值时
ALTER TABLE ADD PARTITION
引发了错误的问题。 -
修复了在语句中已指定限定名称后检查分区时
DROP TABLE
忽略了数据库名称的问题。
有关 Athena 中支持的数据类型的更多信息,请参阅Amazon Athena 中的数据类型。
有关 Athena、JDBC 驱动程序中的类型和 Java 数据类型之间受支持的数据类型映射的信息,请参阅《JDBC 驱动程序安装和配置指南》中的数据类型
2018 年 8 月 16 日
发布时间:2018 年 8 月 16 日
发布了 JDBC 驱动程序版本 2.0.5。预设情况下,新版本的 JDBC 驱动程序会流式处理结果,而不是通过结果处理分页,从而允许商业智能工具更快地检索大型数据集。与 JDBC 驱动程序的前一个版本相比,当前版本具有以下性能改进:
-
在提取小于 10K 的行时提高了约 2 倍的性能。
-
在提取大于 10K 的行时提高了约 5-6 倍的性能。
流式处理结果功能仅适用于 JDBC 驱动程序。它不适用于 ODBC 驱动程序。您无法将其与 Athena API 结合使用。有关流式处理结果的信息,请参阅《JDBC 驱动程序安装和配置指南
有关下载 JDBC 驱动程序版本 2.0.5 及其文档的信息,请参阅通过 JDBC 连接到 Amazon Athena。
JDBC 驱动程序版本 2.0.5 是该驱动程序的前一个版本 (2.0.2) 的简易替代。要确保可以使用 JDBC 驱动程序版本 2.0.5,请将 athena:GetQueryResultsStream
策略操作添加到 Athena 的策略列表。Q 此策略操作不会直接通过 API 公开,仅作为流式处理结果支持的一部分与 JDBC 驱动程序一起使用。有关策略示例,请参阅AWS 托管策略:AWSQuicksightAthenaAccess。有关从该驱动程序的版本 2.0.2 迁移到版本 2.0.5 的更多信息,请参阅《JDBC 驱动程序迁移指南
如果要从 1.x 驱动程序迁移到 2.x 驱动程序,需要将现有配置迁移到新配置。我们强烈建议您迁移到该驱动程序的最新版本。有关更多信息,请参阅 JDBC 驱动程序迁移指南
2018 年 8 月 7 日
发布时间:2018 年 8 月 7 日
现在,您可以采用 GZIP 格式将 Amazon Virtual Private Cloud 流日志直接存储在 Amazon S3 中,其中,您可以在 Athena 中查询它们。有关更多信息,请参阅查询 Amazon VPC 流日志和 Amazon VPC 流日志现在可以传送至 S3
2018 年 6 月 5 日
发布时间:2018 年 6 月 5 日
对于视图的支持
添加了对视图的支持。现在,您可以在 Athena 中使用 CREATE VIEW 和 CREATE DIALECT VIEW、DESCRIBE VIEW、DROP VIEW、SHOW CREATE VIEW 和 SHOW VIEWS。每次,当您在一个查询中引用一个视图时,定义该视图的查询都会运行。有关更多信息,请参阅 使用视图。
错误消息改进和更新
-
将 GSON 2.8.0 库包含到 CloudTrail SerDe 中,以解决 CloudTrail SerDe 的问题并启用 JSON 字符串的解析。
-
在 Athena 中,针对 Parquet(有时也针对 ORC),通过允许对列重新排序,增强了对分区的架构验证。这使 Athena 能够更好地处理随着时间推移架构演变的变化,以及通过 AWS Glue 爬网程序添加的表。有关更多信息,请参阅 处理架构更新。
-
添加了对于
SHOW VIEWS
的分析支持。 -
对最常见的错误消息进行了以下改进:
-
当 SerDe 无法分析 Athena 查询中的列时,用描述性错误消息替换了
内部错误
消息。以往,当发生解析错误时,Athena 会发出一个内部错误。新的错误消息的内容为:"HIVE_BAD_DATA: Error parsing field value for field 0: java.lang.String cannot be cast to org.openx.data.jsonserde.json.JSONObject" (HIVE_BAD_DATA:分析字段 0 的字段值时出错:无法将 java.lang.String 强制转换为 org.openx.data.jsonserde.json.JSONObject)
。 -
通过添加更多详细信息,改进了有关权限不足的错误消息。
-
错误修复
修复了以下错误:
-
修复了一个问题,允许
REAL
内部转换为FLOAT
数据类型。这改进了与返回 AWS Glue 数据类型的FLOAT
爬网程序的集成。 -
修复了 Athena 不能将 AVRO
DECIMAL
(一种逻辑类型)转换为DECIMAL
类型的问题。 -
通过用
WHERE
子句来引用TIMESTAMP
数据类型的值,修复了 Athena 不返回 Parquet 数据查询结果的问题。
2018 年 5 月 17 日
发布时间:2018 年 5 月 17 日
在 Athena 中,查询并发配额从 5 个提高到 20 个。这意味着,您可以同时提交并运行最多 20 个 DDL
查询和 20 个 SELECT
查询。注意,DDL
和 SELECT
查询的并发配额是分开的。
在 Athena 中,并发配额定义为可并发提交到服务的查询数。您可以同时提交最多 20 个同类型查询(DDL
或 SELECT
)。如果您提交的查询超出并发查询配额,Athena API 将显示一条错误消息。
在您将查询提交给 Athena 后,它会根据总体服务负载和传入请求的数量,通过分配资源来处理查询。我们会持续监控和调整服务,以便尽快处理您的查询。
有关信息,请参阅服务限额。这是一个可调节的限额。您可以使用 Service Quotas 控制台
2018 年 4 月 19 日
发布时间:2018 年 4 月 19 日
JDBC 驱动程序的新版本 (版本 2.0.2) 已发布,该版本支持以 Array 数据类型的形式返回 ResultSet
数据,并实现了多项改进,修复了错误。有关详细信息,请参阅该驱动程序的发行说明
有关下载 JDBC 驱动程序新版本 2.0.2 及其文档的信息,请参阅通过 JDBC 连接到 Amazon Athena。
JDBC 驱动程序的最新版本为 2.0.2。如果要从 1.x 驱动程序迁移到 2.x 驱动程序,需要将现有配置迁移到新配置。强烈建议迁移到最新驱动程序。
有关该驱动程序新版本中引入的更改的信息,请参阅《JDBC 驱动程序迁移指南
2018 年 4 月 6 日
发布时间:2018 年 4 月 6 日
使用自动完成功能在 Athena 控制台中键入查询。
2018 年 3 月 15 日
发布时间:2018 年 3 月 15 日
增加直接通过 CloudTrail 控制台为 CloudTrail 日志文件自动创建 Athena 表的功能。有关信息,请参阅使用 CloudTrail 控制台为 CloudTrail 日志创建 Athena 表 。
2018 年 2 月 2 日
发布时间:2018 年 2 月 12 日
添加了一种为使用 GROUP BY
子句的内存密集型查询将中间数据安全地卸载到磁盘的功能。这提高了此类查询的可靠性,可防止“Query resource exhausted”
错误。
2018 年 1 月 19 日
发布时间:2018 年 1 月 19 日
Athena 使用 Presto(一种开源分布式查询引擎)运行查询。
对于 Athena,没有要管理的版本。我们已经以透明方式将 Athena 中的基础引擎升级到一个基于 Presto 0.172 版的版本。在您的末端不需要执行任何操作。
通过升级,您现在可以使用 Presto 0.172 函数和运算符,包括 Athena 中的 Presto 0.172 Lambda Expressions。
此版本的主要更新,包括社区提供的修补程序,包括:
-
支持忽略标题。您可以在定义表时使用
skip.header.line.count
属性,以允许 Athena 忽略标题。目前,对于使用 LazySimpleSerDe 和 OpenCSV SerDe 的查询,支持此功能,但对于 Grok 或 Regex SerDe 则不支持。 -
在
STRING
函数中支持CHAR(n)
数据类型。CHAR(n)
的范围是[1.255]
,而VARCHAR(n)
的范围是[1,65535]
。 -
支持关联子查询。
-
支持 Presto Lambda 表达式和函数。
-
改进了
DECIMAL
类型和运算符的性能。 -
支持筛选聚合,例如
SELECT sum(col_name) FILTER
,其中id > 0
。 -
DECIMAL
、TINYINT
、SMALLINT
和REAL
数据类型的下推谓词。 -
支持定量比较谓词:
ALL
、ANY
和SOME
。 -
增加了函数:
arrays_overlap()
、 array_except()
、 levenshtein_distance()
、 codepoint()
、 skewness()
、 kurtosis()
和 typeof()
。 -
增加了接受时区参数的
from_unixtime()
函数的变体。 -
增加了
bitwise_and_agg()
和 bitwise_or_agg()
聚合函数。 -
增加了
xxhash64()
和 to_big_endian_64()
函数。 -
向
json_extract()
和 json_extract_scalar()
函数中添加了对转义双引号或反斜杠的支持 (将反斜杠与 JSON 路径下标一起使用)。这会更改任何使用反斜杠的调用的语义,因为反斜杠以前被视为普通字符。
有关函数和运算符的更多信息,请参阅本指南中的 DML 查询、函数和运算符,以及 Presto 文档中的函数和运算符
Athena 并非支持所有 Presto 功能。有关更多信息,请参阅限制。
2017 年的 Athena 发布说明
2017 年 11 月 13 日
发布时间:2017 年 11 月 13 日
增加了对将 Athena 连接到 ODBC 驱动程序的支持。有关信息,请参阅通过 ODBC 连接到 Amazon Athena。
2017 年 11 月 1 日
发布时间:2017 年 11 月 1 日
增加了对查询地理空间数据以及对亚太地区 (首尔)、亚太地区 (孟买) 和欧洲 (伦敦) 区域的支持。有关信息,请参阅 查询地理空间数据 及 AWS 区域 和端点。
2017 年 10 月 19 日
发布时间:2017 年 10 月 19 日
增加了对欧洲 (法兰克福) 的支持。有关受支持的区域列表,请参阅 AWS 区域 和端点。
2017 年 10 月 3 日
发布时间:2017 年 10 月 3 日
使用 AWS CloudFormation 创建命名 Athena 查询。有关更多信息,请参阅《AWS CloudFormation 用户指南》中的 AWS::Athena::NamedQuery。
2017 年 9 月 25 日
发布时间:2017 年 9 月 25 日
添加了对亚太地区(悉尼)的支持。有关受支持的区域列表,请参阅 AWS 区域 和端点。
2017 年 8 月 14 日
发布时间:2017 年 8 月 14 日
增加与 AWS Glue Data Catalog 的集成以及用于从 Athena 托管数据目录更新到 AWS Glue Data Catalog 的迁移向导。有关更多信息,请参阅 使用 AWS Glue 将 Athena 连接到 Amazon S3 中的数据。
2017 年 8 月 4 日
发布时间:2017 年 8 月 4 日
增加了对 Grok SerDe 的支持,它为非结构化文本文件 (例如日志) 中的记录添加了更简便的模式匹配。有关更多信息,请参阅 Grok SerDe。增加了键盘快捷键,用以通过控制台滚动查看查询历史记录 (使用 Windows 时为 CTRL + ⇧/⇩,使用 Mac 时为 CMD + ⇧/⇩)。
2017 年 6 月 22 日
发布时间:2017 年 6 月 22 日
增加了对亚太地区(东京)和亚太地区(新加坡)区域的支持。有关受支持的区域列表,请参阅 AWS 区域 和端点。
2017 年 6 月 8 日
发布时间:2017 年 6 月 8 日
增加了对欧洲(爱尔兰)的支持。有关更多信息,请参阅AWS 区域 和端点。
2017 年 5 月 19 日
发布时间:2017 年 5 月 19 日
增加了 Amazon Athena API 和针对 Athena 的 AWS CLI 支持;将 JDBC 驱动程序更新到了 1.1.0 版;解决了各种问题。
-
Amazon Athena 允许对 Athena 进行应用程序编程。有关更多信息,请参阅 Amazon Athena API 参考。最新 AWS 软件开发工具包包括对 Athena API 的支持。对于指向文档和下载的链接,请参阅适用于 Amazon Web Services 的工具中的 SDK
部分。 -
AWS CLI 包括用于 Athena 的新命令。有关更多信息,请参阅 Amazon Athena API 参考。
-
推出了新的 JDBC 驱动程序 1.1.0,它支持新的 Athena API 以及最新功能和错误修复程序。请在 https://downloads.athena.us-east-1.amazonaws.com/drivers/AthenaJDBC41-1.1.0.jar
上下载该驱动程序。我们建议您升级到最新 Athena JDBC 驱动程序;但您可能会继续使用早期驱动程序版本。早期驱动程序版本不支持 Athena API。有关更多信息,请参阅 通过 JDBC 连接到 Amazon Athena。 -
早期版本的 Athena 中特定于策略声明的操作已被弃用。如果您升级到 JDBC 驱动程序 1.1.0 版,并且让客户管理型或内联 IAM policy 附加到 JDBC 用户,则必须更新 IAM policy。相比之下,早期版本的 JDBC 驱动程序不支持 Athena API,因此您只能在附加到早期版本 JDBC 用户的策略中指定已弃用的操作。出于此原因,您应该不需要更新客户管理型或内联 IAM policy。
-
在 Athena API 发布之前,这些特定于策略的操作就已经被用在 Athena 中。策略中的这些已废弃操作只适用于 1.1.0 版本之前的 JDBC 驱动程序。如果要升级 JDBC 驱动程序,请用列出的适当 API 操作替换允许或拒绝已废弃操作的策略语句,否则会发生错误:
已弃用的特定于策略的操作 | 对应的 Athena API 操作 |
---|---|
|
|
|
|
|
|
改进
-
将查询字符串长度限制提高到 256 KB。
错误修复
-
修复了一个在控制台中滚动结果时导致查询结果显示不正确的问题。
-
修正了一个由 Amazon S3 数据文件中
\u0000
的字符串导致错误的问题。 -
修复了一个导致取消通过 JDBC 驱动程序进行查询的请求失败的问题。
-
修复了一个导致 AWS CloudTrail SerDe 无法使用美国东部(俄亥俄)中的 Amazon S3 数据的问题。
-
修复了一个导致
DROP TABLE
在分区表上失败的问题。
2017 年 4 月 4 日
发布时间:2017 年 4 月 4 日
增加了对 Amazon S3 数据加密的支持,并发布了具有加密支持、改进和错误修复的 JDBC 驱动程序更新 (1.0.1 版)。
功能
-
增加了以下加密功能:
-
支持查询 Amazon S3 中的加密数据。
-
支持加密 Athena 查询结果。
-
-
新版本的驱动程序支持新的加密功能,添加了改进,并修复了问题。
-
增加了使用
ALTER TABLE
添加、替换和更改列的功能。有关详细信息,请参阅 Hive 文档中的修改列。 -
增加了对查询 LZO 压缩数据的支持。
有关更多信息,请参阅 静态加密。
改进
-
通过页面大小改进提高了 JDBC 查询性能,返回 1000 行,而不是 100 行。
-
增加了使用 JDBC 驱动程序接口取消查询的功能。
-
增加了在 JDBC 连接 URL 中指定 JDBC 选项的功能。请参阅 通过 JDBC 连接到 Amazon Athena 获取最新的 JDBC 驱动程序。
-
增加了驱动程序中的 PROXY 设置,现在可以使用适用于 Java 的 AWS 软件开发工具包中的 ClientConfiguration 来设置它。
错误修复
修复了以下错误:
-
当使用 JDBC 驱动程序接口发出多个查询时,会发生限制错误。
-
当投影十进制数据类型时,JDBC 驱动程序将会停止。
-
JDBC 驱动程序将以字符串的形式返回每个数据类型,无论数据类型在表中是如何定义的都是如此。例如,使用
resultSet.GetObject()
选择一个定义为INT
数据类型的列将会返回STRING
数据类型,而不是INT
。 -
JDBC 驱动程序将会在建立连接时验证凭据,而不是在运行查询时进行验证。
-
在与 URL 一起指定架构时,通过 JDBC 驱动程序进行的查询将会失败。
2017 年 3 月 24 日
发布时间:2017 年 3 月 24 日
增加了 AWS CloudTrail SerDe,提高了性能、解决了分区问题。
功能
-
添加了 AWS CloudTrail SerDe,但已被 Hive JSON SerDe 所取代以进行 CloudTrail 日志读取。有关查询 CloudTrail 日志的信息,请参阅 查询 AWS CloudTrail日志。
改进
-
提高了扫描大量分区时的性能。
-
提高了
MSCK Repair Table
操作的性能。 -
增加了查询在主要区域之外的区域存储的 Amazon S3 数据的功能。除了标准 Athena 费用外,Amazon S3 的标准区域间数据传输费率也适用。
错误修复
-
修复了一个在未加载任何分区时可能发生“table not found error”的错误。
-
修复了一个避免引发
ALTER TABLE ADD PARTITION IF NOT EXISTS
查询异常的错误。 -
修复了
DROP PARTITIONS
中的一个错误。
2017 年 2 月 20 日
发布时间:2017 年 2 月 20 日
增加了对 AvroSerDe 和 OpenCSVSerDe、美国东部(俄亥俄)区域以及在控制台向导中批量编辑列的支持。改进了大型 Parquet 表的性能。
功能
-
引入了对新 SerDes 的支持:
-
美国东部(俄亥俄)区域 (us-east-2) 启动。现在,您可以在此区域中运行查询。
-
现在,您可以使用 Create Table From S3 bucket data(根据 S3 存储桶数据创建表)表单来批量定义表架构。在查询编辑器中,选择 Create(创建)、S3 bucket data(S3 存储桶数据),然后选择 Column details(列详细信息)部分中的 Bulk add columns(批量添加列)。
在文本框中键入名称值对,然后选择 Add。
改进
-
改进了大型 Parquet 表的性能。