Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Passaggio 4: Configurare DSBulk
le impostazioni per caricare i dati dal CSV file alla tabella di destinazione
Questa sezione descrive i passaggi necessari DSBulk per configurare il caricamento dei dati su Amazon Keyspaces. La configurazione DSBulk viene effettuata utilizzando un file di configurazione. Il file di configurazione viene specificato direttamente dalla riga di comando.
-
Crea un file di DSBulk configurazione per la migrazione ad Amazon Keyspaces, in questo esempio utilizziamo il nome del file.
dsbulk_keyspaces.conf
Specificate le seguenti impostazioni nel file DSBulk di configurazione.-
PlainTextAuthProvider
— Crea il provider di autenticazione con laPlainTextAuthProvider
classe.ServiceUserName
eServicePassword
deve corrispondere al nome utente e alla password ottenuti al momento della generazione delle credenziali specifiche del servizio seguendo la procedura riportata in. Crea credenziali per l'accesso programmatico ad Amazon Keyspaces -
local-datacenter
— Imposta il valore perlocal-datacenter
Regione AWS a cui ti stai connettendo. Ad esempio, se l'applicazione si connette acassandra.us-east-2.amazonaws.com
, imposta il data center locale suus-east-2
. Per tutti i disponibili Regioni AWS, consulta Endpoint di servizio per Amazon Keyspaces. Per evitare repliche, imposta suslow-replica-avoidance
.false
-
SSLEngineFactory
— Per configurareSSL/TLS, inizializzaSSLEngineFactory
aggiungendo una sezione nel file di configurazione con una sola riga che specifica la classe con.class = DefaultSslEngineFactory
Fornisci il percorsocassandra_truststore.jks
e la password che hai creato in precedenza. consistency
— Imposta il livello di coerenza suLOCAL QUORUM
. Altri livelli di coerenza di scrittura non sono supportati, per ulteriori informazioni, vedereLivelli di coerenza di lettura e scrittura supportati da Apache Cassandra e costi associati.Il numero di connessioni per pool è configurabile nel driver Java. Per questo esempio, imposta su
advanced.connection.pool.local.size
3.
Di seguito è riportato il file di configurazione di esempio completo.
datastax-java-driver { basic.contact-points = [ "
cassandra.us-east-2.amazonaws.com:9142
"] advanced.auth-provider { class = PlainTextAuthProvider username = "ServiceUserName
" password = "ServicePassword
" } basic.load-balancing-policy { local-datacenter = "us-east-2
" slow-replica-avoidance = false } basic.request { consistency = LOCAL_QUORUM default-idempotence = true } advanced.ssl-engine-factory { class = DefaultSslEngineFactory truststore-path = "./cassandra_truststore.jks" truststore-password = "my_password
" hostname-validation = false } advanced.connection.pool.local.size = 3 } -
-
Esaminate i parametri del DSBulk
load
comando.executor.maxPerSecond
— Il numero massimo di righe che il comando load tenta di elaborare contemporaneamente al secondo. Se non è impostata, questa impostazione viene disabilitata con -1.Imposta in
executor.maxPerSecond
base al numero di WCUs elementi che hai assegnato alla tabella di destinazione. Il valoreexecutor.maxPerSecond
delload
comando non è un limite, ma una media obiettivo. Ciò significa che può (e spesso succede) superare il numero impostato. Per consentire l'insorgenza di interruzioni e assicurarvi che sia disponibile una capacità sufficiente per gestire le richieste di caricamento dei dati, impostateexecutor.maxPerSecond
il 90% della capacità di scrittura della tabella.executor.maxPerSecond = WCUs * .90
In questo tutorial, abbiamo impostato su
executor.maxPerSecond
5.Nota
Se stai usando la versione DSBulk 1.6.0 o una versione successiva, puoi usare
dsbulk.engine.maxConcurrentQueries
invece.Configura questi parametri aggiuntivi per il DSBulk
load
comando.batch-mode
— Questo parametro indica al sistema di raggruppare le operazioni per chiave di partizione. Si consiglia di disabilitare la modalità batch, poiché può causare scenari e causeWriteThrottleEvents
con tasti di scelta rapida.driver.advanced.retry-policy-max-retries
— Ciò determina quante volte riprovare un'interrogazione non riuscita. Se non è impostata, l'impostazione predefinita è 10. È possibile modificare questo valore in base alle esigenze.driver.basic.request.timeout
— Il tempo in minuti in cui il sistema attende la restituzione di una query. Se non è impostata, l'impostazione predefinita è «5 minuti». È possibile modificare questo valore in base alle esigenze.