Fase 2: Configurazione del connettore Apache Cassandra Spark

Modalità Focus

Questa pagina ti è stata utile?

Fase 2: Configurazione del connettore Apache Cassandra Spark - Amazon Keyspaces (per Apache Cassandra)

Apache Spark è una piattaforma di calcolo generica che puoi configurare in diversi modi. Per configurare Spark e Spark Cassandra Connector per l'integrazione con Amazon Keyspaces, ti consigliamo di iniziare con le impostazioni di configurazione minime descritte nella sezione seguente, per poi aumentarle in un secondo momento in base al tuo carico di lavoro.

Crea partizioni Spark di dimensioni inferiori a 8. MBs

In Spark, le partizioni rappresentano un blocco atomico di dati che può essere eseguito in parallelo. Quando scrivi dati su Amazon Keyspaces con Spark Cassandra Connector, più piccola è la partizione Spark, minore è la quantità di record che l'attività scriverà. Se un'attività Spark rileva più errori, fallisce una volta esaurito il numero di tentativi designato. Per evitare di ripetere operazioni di grandi dimensioni e rielaborare molti dati, mantieni piccole le dimensioni della partizione Spark.
Utilizza un numero ridotto di scritture simultanee per esecutore con un numero elevato di tentativi.

Amazon Keyspaces restituisce errori di capacità insufficiente ai driver Cassandra come timeout operativi. Non puoi risolvere i timeout causati da una capacità insufficiente modificando la durata del timeout configurata perché Spark Cassandra Connector tenta di riprovare le richieste in modo trasparente utilizzando il. MultipleRetryPolicy Per garantire che i nuovi tentativi non sovraccarichino il pool di connessioni del driver, utilizza un numero ridotto di scritture simultanee per esecutore con un numero elevato di tentativi. Il seguente frammento di codice ne è un esempio.
```
spark.cassandra.query.retry.count = 500
spark.cassandra.output.concurrent.writes = 3
```
Suddividi il throughput totale e distribuiscilo su più sessioni di Cassandra.
- Il Cassandra Spark Connector crea una sessione per ogni esecutore Spark. Pensate a questa sessione come all'unità di scala per determinare il throughput richiesto e il numero di connessioni richieste.
- Quando definite il numero di core per executor e il numero di core per task, iniziate con un valore basso e aumentatelo secondo necessità.
- Imposta gli errori delle attività Spark per consentire l'elaborazione in caso di errori temporanei. Dopo aver acquisito familiarità con le caratteristiche e i requisiti di traffico dell'applicazione, ti consigliamo di spark.task.maxFailures impostare un valore limitato.
- Ad esempio, la seguente configurazione può gestire due attività simultanee per esecutore, per sessione:
```
spark.executor.instances = configurable -> number of executors for the session.
spark.executor.cores = 2 -> Number of cores per executor.
spark.task.cpus = 1 -> Number of cores per task.
spark.task.maxFailures = -1
```

Disattiva il raggruppamento in batch.

Ti consigliamo di disattivare il batch per migliorare i modelli di accesso casuale. Il seguente frammento di codice ne è un esempio.


spark.cassandra.output.batch.size.rows = 1 (Default = None)
spark.cassandra.output.batch.grouping.key = none (Default = Partition)
spark.cassandra.output.batch.grouping.buffer.size = 100 (Default = 1000)

SPARK_LOCAL_DIRSImpostato su un disco locale veloce con spazio sufficiente.
- Per impostazione predefinita, Spark salva i file di output delle mappe e i set di dati distribuiti resilienti (RDDs) in una cartella. /tmp A seconda della configurazione dell'host Spark, ciò può comportare la perdita di spazio sugli errori di stile del dispositivo.
- Per impostare la variabile di SPARK_LOCAL_DIRS ambiente su una directory chiamata/example/spark-dir, puoi usare il seguente comando.
```
export SPARK_LOCAL_DIRS=/example/spark-dir
```

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fase 1: Configurazione di Amazon Keyspaces

Passaggio 3: Creare il file di configurazione dell'app

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Fase 2: Configurazione del connettore Apache Cassandra Spark

Questa pagina ti è stata utile?

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?