기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이 단계에서는 샘플 데이터와 Amazon Keyspaces 테이블을 사용하여 소스 파일을 생성합니다.
-
소스 파일을 생성합니다. 다음 옵션 중 하나를 선택할 수 있습니다.
-
이 자습서에서는 이름
keyspaces_sample_table.csv
가 있는 쉼표로 구분된 값(CSV) 파일을 데이터 마이그레이션의 원본 파일로 사용합니다. 제공된 샘플 파일에는 이름이book_awards
인 테이블에 대한 몇 개의 데이터 행이 포함되어 있습니다.-
다음 아카이브 파일 samplemigration.zip에 포함된 샘플 CSV 파일(
keyspaces_sample_table.csv
)을 다운로드합니다. 아카이브의 압축을 풀고keyspaces_sample_table.csv
의 경로를 기록해 둡니다.
-
-
자체 CSV 파일을 따라 Amazon Keyspaces에 데이터를 쓰려면 데이터가 무작위로 지정되었는지 확인하십시오. 데이터베이스에서 직접 읽거나 플랫 파일로 내보내는 데이터는 일반적으로 파티션과 프라이머리 키를 기준으로 정렬됩니다. 정렬된 데이터를 Amazon Keyspaces로 가져오면 Amazon Keyspaces 파티션의 더 작은 세그먼트에 데이터가 기록되어 트래픽이 고르지 않게 분산될 수 있습니다. 이로 인해 성능이 저하되고 오류율이 높아질 수 있습니다.
반대로 데이터를 무작위화하면 트래픽을 파티션 전체에 더 균등하게 분산하여 Amazon Keyspaces의 기본 제공 로드 밸런싱 기능을 활용할 수 있습니다. 데이터를 랜덤화하는 데 사용할 수 있는 다양한 도구가 있습니다. 오픈소스 도구인 Shuf
를 사용하는 예제는 데이터 마이그레이션 자습서에서 2단계: DSBulk를 사용하여 업로드할 데이터 준비 섹션을 참조하세요. 다음은 데이터를 DataFrame
으로 셔플하는 방법을 보여 주는 예제입니다.import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
-
-
Amazon Keyspaces에서 대상 키스페이스 및 테이블을 생성합니다.
-
cqlsh
를 사용하여 Amazon Keyspaces에 연결하고 다음 예제의 서비스 엔드포인트, 사용자 이름 및 암호를 사용자 고유의 값으로 바꿉니다.cqlsh
cassandra.us-east-2.amazonaws.com
9142 -u"111122223333"
-p"wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY"
--ssl -
다음 예제와 같이 이름
catalog
를 사용하여 새 키스페이스를 생성합니다.CREATE KEYSPACE
catalog
WITH REPLICATION = {'class': 'SingleRegionStrategy'}; -
새 키스페이스가 사용 가능 상태가 되면 다음 코드를 사용하여 대상 테이블
book_awards
를 생성합니다. 비동기 리소스 생성 및 리소스가 사용 가능한지 확인하는 방법에 대한 자세한 내용은 Amazon Keyspaces에서 키스페이스 생성 상태 확인 섹션을 참조하세요.CREATE TABLE
catalog.book_awards
( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );
-