本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Apache Spark 是一款用于大规模数据分析的开源引擎。Apache Spark 让您能够更有效地分析存储在 Amazon Keyspaces 中的数据。您还可以使用 Amazon Keyspaces 为应用程序提供对 Spark 中的分析数据的毫秒级一致读取权限。开源 Spark Cassandra Connector 可以简化 Amazon Keyspaces 和 Spark 之间的数据读写。
Amazon Keyspaces 可以使用完全托管的无服务器数据库服务来简化 Cassandra 工作负载在基于 Spark 的分析管道中的运行,从而对 Spark Cassandra Connector 提供支持。有了 Amazon Keyspaces,您无需担心 Spark 会与您的表争夺底层基础设施资源。Amazon Keyspaces 表会根据您的应用程序流量自动扩缩。
以下教程将会介绍使用 Spark Cassandra Connector 向 Amazon Keyspaces 读取和写入数据所需的步骤和最佳实践。本教程演示了如何使用 Spark Cassandra Connector 从文件中加载数据并将其写入 Amazon Keyspaces 表,从而将数据迁移到 Amazon Keyspaces。然后,本教程展示了如何使用 Spark Cassandra Connector 从 Amazon Keyspaces 读回数据。进行这一操作的目的是在基于 Spark 的分析管道中运行 Cassandra 工作负载。
主题
- 使用 Spark Cassandra Connector 建立与 Amazon Keyspaces 的连接的先决条件
- 第 1 步:配置 Amazon Keyspaces 以便与 Apache Cassandra Spark Connector 集成
- 步骤 2:配置 Apache Cassandra Spark Connector
- 步骤 3:创建应用程序配置文件
- 步骤 4:在 Amazon Keyspaces 中准备源数据和目标表
- 步骤 5:使用 Apache Cassandra Spark Connector 写入和读取 Amazon Keyspaces 数据
- 排除将 Spark Cassandra Connector 与 Amazon Keyspaces 配合使用时的常见错误