기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이 섹션에서는 Amazon Keyspaces로 데이터를 대량 업로드하거나 마이그레이션하는 데 사용할 수 있는 다양한 도구를 검토하고 필요에 따라 올바른 도구를 선택하는 방법을 배울 수 있습니다. 또한이 섹션에서는 Amazon Keyspaces로 데이터를 가져오는 방법을 보여주는 사용 가능한 step-by-step 자습서의 개요 및 사용 사례를 제공합니다.
Apache Cassandra에서 Amazon Keyspaces로 워크로드를 마이그레이션하는 데 사용할 수 있는 전략을 검토하려면 Apache Cassandra에서 Amazon Keyspaces로 마이그레이션하기 위한 마이그레이션 계획 생성 섹션을 참조하세요.
-
마이그레이션 도구
대규모 마이그레이션의 경우 추출, 변환 및 로드(ETL) 도구를 사용하는 것이 좋습니다. AWS Glue 를 사용하여 데이터 변환 마이그레이션을 빠르고 효과적으로 수행할 수 있습니다. 자세한 내용은 오프라인 마이그레이션 프로세스: Apache Cassandra에서 Amazon Keyspaces로 단원을 참조하십시오.
CQLReplicator - CQLReplicator는 거의 실시간으로 Apache Cassandra에서 Amazon Keyspaces로 데이터를 마이그레이션하는 데 도움이 되는 Github
에서 사용할 수 있는 오픈 소스 유틸리티입니다. 자세한 내용은 를 사용하여 데이터 마이그레이션 CQLReplicator 단원을 참조하십시오.
Amazon Managed Streaming for Apache Kafka를 사용하여 이중 쓰기를 사용하는 온라인 마이그레이션 프로세스를 구현하는 방법에 대한 자세한 내용은 Guidance for continuous data migration from Apache Cassandra to Amazon Keyspaces
를 참조하세요. Apache Cassandra Spark 커넥터를 사용하여 Amazon Keyspaces에 데이터를 쓰는 방법을 알아보려면 Apache Spark를 사용하여 Amazon Keyspaces에 연결 섹션을 참조하세요.
cqlsh
COPY FROM
명령을 사용하여 Amazon Keyspaces로 데이터를 빠르게 로드합니다. cqlsh는 Apache Cassandra에 포함되어 있으며 작은 데이터 세트 또는 테스트 데이터를 로드하는 데 가장 적합합니다. 지침은 step-by-step 섹션을 참조하세요자습서: cqlsh를 사용하여 Amazon Keyspaces에 데이터 로드.또한 Apache Cassandra용 DataStax Bulk Loader를 사용하여
dsbulk
명령을 사용하여 Amazon Keyspaces에 데이터를 로드할 수 있습니다.는 cqlsh보다 강력한 가져오기 기능을 DSBulk 제공하며 GitHub 리포지토리에서 사용할 수 있습니다. step-by-step 지침은 섹션을 참조하세요자습서: DSBulk를 사용하여 Amazon Keyspaces에 데이터 로드.
Amazon Keyspaces에 데이터를 업로드하기 위한 일반적인 고려 사항
-
데이터 업로드를 더 작은 구성 요소로 나눕니다.
원시 데이터 크기 측면에서 다음과 같은 마이그레이션 단위와 잠재적 공간을 고려합니다. 한 단계 이상의 단계에서 소량의 데이터를 업로드하면 마이그레이션을 단순화하는 데 도움이 될 수 있습니다.
클러스터별 - 모든 Cassandra 데이터를 한 번에 마이그레이션합니다. 이 접근 방식은 소규모 클러스터의 경우 괜찮을 수 있습니다.
-
키스페이스 또는 테이블별 - 마이그레이션을 키스페이스 또는 테이블 그룹으로 나눕니다. 이 접근 방식을 사용하면 각 워크로드의 요구 사항에 따라 단계적으로 데이터를 마이그레이션할 수 있습니다.
데이터별 - 데이터 크기를 더 줄이려면 특정 사용자 그룹 또는 제품에 대한 데이터를 마이그레이션하는 것을 고려합니다.
-
단순성을 기반으로 먼저 업로드할 데이터의 우선 순위를 정합니다.
먼저 더 쉽게 마이그레이션할 수 있는 데이터가 있는지 고려합니다. 예를 들어 특정 시간대에 변경되지 않는 데이터, 야간 배치 작업의 데이터, 오프라인 시간 동안 사용하지 않은 데이터 또는 내부 앱의 데이터 등이 여기에 해당하는지 고려합니다.