本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在本节中,您可以查看可用于将数据批量上传或迁移到 Amazon Keyspaces 的各种工具,并了解如何根据需要选择合适的工具。此外,本节还概述了演示如何将数据导入 Amazon Keyspaces 的可用 step-by-step教程和使用案例。
要查看将工作负载从 Apache Cassandra 迁移到 Amazon Keyspaces 的可用策略,请参阅创建从 Apache Cassandra 迁移到 Amazon Keyspaces 的迁移计划。
-
迁移工具
对于大型迁移,可以考虑使用提取、转换和加载 (ETL) 工具。您可以使用 AWS Glue 来快速有效地执行数据转换迁移。有关更多信息,请参阅 离线迁移过程:Apache Cassandra 到 Amazon Keyspaces。
CQLReplicator— CQLReplicator 是 Github
上提供的开源实用程序,可帮助您近乎实时地将数据从 Apache Cassandra 迁移到 Amazon Keyspaces。 有关更多信息,请参阅 使用迁移数据 CQLReplicator。
要详细了解如何使用 Amazon Managed Streaming for Apache Kafka 实现在线迁移过程及双重写入,请参阅 Guidance for continuous data migration from Apache Cassandra to Amazon Keyspaces
。 要了解如何使用 Apache Cassandra Spark 连接器向 Amazon Keyspaces 写入数据,请参阅 使用 Apache Spark 连接 Amazon Keyspaces。
使用 cqlsh
COPY FROM
命令快速开始将数据加载到 Amazon Keyspaces。cqlsh 包含在 Apache Cassandra 中,最适用于加载小型数据集或测试数据。有关 step-by-step说明,请参阅教程:使用 cqlsh 将数据加载到 Amazon Keyspaces。您也可以使用适用于 Apache Cassandra 的 DataStax 批量加载器使用命令将数据加载到 Amazon Keyspaces 中。
dsbulk
DSBulk提供了比 cqlsh 更强大的导入功能,并且可从存储库中获取。GitHub有关 step-by-step说明,请参阅教程:使用 DSBulk 将数据加载到 Amazon Keyspaces。
将数据上传到 Amazon Keyspaces 的一般注意事项
-
将数据上传分解为较小的组成部分。
考虑以下迁移单位及其在原始数据大小方面的潜在占用空间。在一个或多个阶段上传少量数据可能有助于简化迁移。
按集群:一次性迁移所有 Cassandra 数据。这种方法可能适用于较小的集群。
-
按键空间或表:将迁移分解为键空间或表组。此方法可以帮助您根据每个工作负载的要求分阶段迁移数据。
按数据:考虑迁移特定用户组或产品的数据,进一步减少数据大小。
-
根据简便性,首选确定要上传的数据的优先顺序。
考虑一下您是否有可以首先且更轻松地迁移的数据,例如,在特定时间段内不会更改的数据、来自夜间批处理作业的数据、离线期间未使用的数据或来自内部应用程序的数据。