Passaggio 4: Configurare DSBulk le impostazioni per caricare i dati dal CSV file alla tabella di destinazione - Amazon Keyspaces (per Apache Cassandra)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Passaggio 4: Configurare DSBulk le impostazioni per caricare i dati dal CSV file alla tabella di destinazione

Questa sezione descrive i passaggi necessari DSBulk per configurare il caricamento dei dati su Amazon Keyspaces. La configurazione DSBulk viene effettuata utilizzando un file di configurazione. Il file di configurazione viene specificato direttamente dalla riga di comando.

  1. Crea un file di DSBulk configurazione per la migrazione ad Amazon Keyspaces, in questo esempio utilizziamo il nome del file. dsbulk_keyspaces.conf Specificate le seguenti impostazioni nel file DSBulk di configurazione.

    1. PlainTextAuthProvider— Crea il provider di autenticazione con la PlainTextAuthProvider classe. ServiceUserNamee ServicePassword deve corrispondere al nome utente e alla password ottenuti al momento della generazione delle credenziali specifiche del servizio seguendo la procedura riportata in. Crea credenziali per l'accesso programmatico ad Amazon Keyspaces

    2. local-datacenter— Imposta il valore per local-datacenter Regione AWS a cui ti stai connettendo. Ad esempio, se l'applicazione si connette acassandra.us-east-2.amazonaws.com, imposta il data center locale suus-east-2. Per tutti i disponibili Regioni AWS, consulta Endpoint di servizio per Amazon Keyspaces. Per evitare repliche, imposta suslow-replica-avoidance. false

    3. SSLEngineFactory— Per configurareSSL/TLS, inizializza SSLEngineFactory aggiungendo una sezione nel file di configurazione con una sola riga che specifica la classe con. class = DefaultSslEngineFactory Fornisci il percorso cassandra_truststore.jks e la password che hai creato in precedenza.

    4. consistency— Imposta il livello di coerenza suLOCAL QUORUM. Altri livelli di coerenza di scrittura non sono supportati, per ulteriori informazioni, vedereLivelli di coerenza di lettura e scrittura supportati da Apache Cassandra e costi associati.

    5. Il numero di connessioni per pool è configurabile nel driver Java. Per questo esempio, imposta su advanced.connection.pool.local.size 3.

    Di seguito è riportato il file di configurazione di esempio completo.

    datastax-java-driver { basic.contact-points = [ "cassandra.us-east-2.amazonaws.com:9142"] advanced.auth-provider { class = PlainTextAuthProvider username = "ServiceUserName" password = "ServicePassword" } basic.load-balancing-policy { local-datacenter = "us-east-2" slow-replica-avoidance = false } basic.request { consistency = LOCAL_QUORUM default-idempotence = true } advanced.ssl-engine-factory { class = DefaultSslEngineFactory truststore-path = "./cassandra_truststore.jks" truststore-password = "my_password" hostname-validation = false } advanced.connection.pool.local.size = 3 }
  2. Esaminate i parametri del DSBulk load comando.

    1. executor.maxPerSecond— Il numero massimo di righe che il comando load tenta di elaborare contemporaneamente al secondo. Se non è impostata, questa impostazione viene disabilitata con -1.

      Imposta in executor.maxPerSecond base al numero di WCUs elementi che hai assegnato alla tabella di destinazione. Il valore executor.maxPerSecond del load comando non è un limite, ma una media obiettivo. Ciò significa che può (e spesso succede) superare il numero impostato. Per consentire l'insorgenza di interruzioni e assicurarvi che sia disponibile una capacità sufficiente per gestire le richieste di caricamento dei dati, impostate executor.maxPerSecond il 90% della capacità di scrittura della tabella.

      executor.maxPerSecond = WCUs * .90

      In questo tutorial, abbiamo impostato su executor.maxPerSecond 5.

      Nota

      Se stai usando la versione DSBulk 1.6.0 o una versione successiva, puoi usare dsbulk.engine.maxConcurrentQueries invece.

    2. Configura questi parametri aggiuntivi per il DSBulk load comando.

      • batch-mode— Questo parametro indica al sistema di raggruppare le operazioni per chiave di partizione. Si consiglia di disabilitare la modalità batch, poiché può causare scenari e cause WriteThrottleEvents con tasti di scelta rapida.

      • driver.advanced.retry-policy-max-retries— Ciò determina quante volte riprovare un'interrogazione non riuscita. Se non è impostata, l'impostazione predefinita è 10. È possibile modificare questo valore in base alle esigenze.

      • driver.basic.request.timeout— Il tempo in minuti in cui il sistema attende la restituzione di una query. Se non è impostata, l'impostazione predefinita è «5 minuti». È possibile modificare questo valore in base alle esigenze.