As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Nesta etapa, você criará um arquivo de origem com dados demonstrativos e uma tabela do Amazon Keyspaces.
-
Criar o arquivo de origem. Você pode escolher uma das seguintes opções:
-
Neste tutorial, você usará um arquivo de valores separados por vírgula (CSV) com o nome
keyspaces_sample_table.csv
como arquivo de origem para a migração de dados. O arquivo de amostra fornecido contém algumas linhas de dados de uma tabela com o nomebook_awards
.-
Faça o download do arquivo CSV de amostra (
keyspaces_sample_table.csv
) que está contido no seguinte arquivo samplemigration.zip. Descompacte o arquivo e anote o caminho atékeyspaces_sample_table.csv
.
-
-
Se você quiser acompanhar seu próprio arquivo CSV para gravar dados no Amazon Keyspaces, certifique-se de que os dados sejam randomizados. Os dados lidos diretamente de um banco de dados ou exportados para arquivos simples geralmente são ordenados pela partição e pela chave primária. A importação de dados ordenados para o Amazon Keyspaces pode fazer com que eles sejam gravados em segmentos menores de partições do Amazon Keyspaces, o que resulta em uma distribuição de tráfego desigual. Isso pode causar um desempenho mais lento e a taxas de erro mais altas.
Por outro lado, a randomização de dados ajuda a aproveitar os recursos integrados de balanceamento de carga do Amazon Keyspaces ao distribuir o tráfego entre partições de forma mais uniforme. Há várias ferramentas que você pode usar para randomizar dados. Para ver um exemplo que usa a ferramenta de código aberto Shuf
, consulte o tutorial de migração de dados Etapa 2: Preparar os dados para fazer o upload usando o DSBulk. Veja a seguir um exemplo que mostra como embaralhar dados como um DataFrame
.import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
-
-
Criar o espaço de chaves e a tabela de destino no Amazon Keyspaces.
-
Conecte-se ao Amazon Keyspaces usando
cqlsh
e substitua o endpoint do serviço, o nome de usuário e a senha no exemplo a seguir por seus próprios valores.cqlsh
cassandra.us-east-2.amazonaws.com
9142 -u"111122223333"
-p"wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY"
--ssl -
Crie um novo espaço de chave com o nome
catalog
mostrado no exemplo a seguir.CREATE KEYSPACE
catalog
WITH REPLICATION = {'class': 'SingleRegionStrategy'}; -
Depois que o novo keyspace tiver o status de disponível, use o código a seguir para criar a tabela
book_awards
de destino. Para saber mais sobre a criação assíncrona de recursos e como verificar se um recurso está disponível, consulte Verifique o status de criação do keyspace no Amazon Keyspaces.CREATE TABLE
catalog.book_awards
( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );
-