教程：与 Apache Spark 集成以导入或导出数据

Apache Spark 是一款用于大规模数据分析的开源引擎。Apache Spark 让您能够更有效地分析存储在 Amazon Keyspaces 中的数据。您还可以使用 Amazon Keyspaces 为应用程序提供对 Spark 中的分析数据的毫秒级一致读取权限。开源 Spark Cassandra Connector 可以简化 Amazon Keyspaces 和 Spark 之间的数据读写。

Amazon Keyspaces 对 Spark Cassandra Connector 的支持使用完全托管的无服务器数据库服务，简化了 Spark-based 分析管道中运行的 Cassandra 工作负载。有了 Amazon Keyspaces，您无需担心 Spark 会与您的表争夺底层基础设施资源。Amazon Keyspaces 表会根据您的应用程序流量自动扩缩。

以下教程将会介绍使用 Spark Cassandra Connector 向 Amazon Keyspaces 读取和写入数据所需的步骤和最佳实践。本教程演示了如何使用 Spark Cassandra Connector 从文件中加载数据并将其写入 Amazon Keyspaces 表，从而将数据迁移到 Amazon Keyspaces。然后，本教程展示了如何使用 Spark Cassandra Connector 从 Amazon Keyspaces 读回数据。这样做是为了在 Spark-based 分析管道中运行 Cassandra 工作负载。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

第 7 步：（可选）清除

先决条件