在 Amazon Athena 中使用 Apache Spark
Amazon Athena 让您可以轻松使用 Apache Spark 以交互方式运行数据分析和探索,无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序意味着,无需额外配置即可提交 Spark 代码进行处理和直接接收结果。您可以使用 Amazon Athena 控制台中简化的笔记本体验,以通过 Python 或 Athena notebook API 开发 Apache Spark 应用程序。Amazon Athena 上的 Apache Spark 无服务器,可通过提供即时计算实现自动按需扩展,从而满足不断变化的数据卷和处理要求。
Amazon Athena 提供以下功能:
-
控制台用法 – 从 Amazon Athena 控制台提交 Spark 应用程序。
-
脚本编写 – 在 Python 中以交互方式快速构建和调试 Apache Spark 应用程序。
-
动态扩展 – Amazon Athena 会自动确定运行任务所需的计算和内存资源,并不断相应地将这些资源扩展到您指定的最大值。这种动态扩展可以在不影响速度的情况下降低成本。
-
笔记本体验 – 使用 Athena 笔记本编辑器通过熟悉的界面创建、编辑和运行计算。Athena 笔记本与 Jupyter notebook 兼容,并且包含按顺序执行计算的单元格列表。单元格内容可以包括代码、文本、Markdown、数学运算、绘图和富媒体。
有关其他信息,请参阅 AWS 大数据博客中的 Run Spark SQL on Amazon Athena Spark