Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Fase 2: Configurazione del connettore Apache Cassandra Spark

Modalità Focus
Fase 2: Configurazione del connettore Apache Cassandra Spark - Amazon Keyspaces (per Apache Cassandra)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Apache Spark è una piattaforma di calcolo generica che puoi configurare in diversi modi. Per configurare Spark e Spark Cassandra Connector per l'integrazione con Amazon Keyspaces, ti consigliamo di iniziare con le impostazioni di configurazione minime descritte nella sezione seguente, per poi aumentarle in un secondo momento in base al tuo carico di lavoro.

  • Crea partizioni Spark di dimensioni inferiori a 8. MBs

    In Spark, le partizioni rappresentano un blocco atomico di dati che può essere eseguito in parallelo. Quando scrivi dati su Amazon Keyspaces con Spark Cassandra Connector, più piccola è la partizione Spark, minore è la quantità di record che l'attività scriverà. Se un'attività Spark rileva più errori, fallisce una volta esaurito il numero di tentativi designato. Per evitare di ripetere operazioni di grandi dimensioni e rielaborare molti dati, mantieni piccole le dimensioni della partizione Spark.

  • Utilizza un numero ridotto di scritture simultanee per esecutore con un numero elevato di tentativi.

    Amazon Keyspaces restituisce errori di capacità insufficiente ai driver Cassandra come timeout operativi. Non puoi risolvere i timeout causati da una capacità insufficiente modificando la durata del timeout configurata perché Spark Cassandra Connector tenta di riprovare le richieste in modo trasparente utilizzando il. MultipleRetryPolicy Per garantire che i nuovi tentativi non sovraccarichino il pool di connessioni del driver, utilizza un numero ridotto di scritture simultanee per esecutore con un numero elevato di tentativi. Il seguente frammento di codice ne è un esempio.

    spark.cassandra.query.retry.count = 500 spark.cassandra.output.concurrent.writes = 3
  • Suddividi il throughput totale e distribuiscilo su più sessioni di Cassandra.

    • Il Cassandra Spark Connector crea una sessione per ogni esecutore Spark. Pensate a questa sessione come all'unità di scala per determinare il throughput richiesto e il numero di connessioni richieste.

    • Quando definite il numero di core per executor e il numero di core per task, iniziate con un valore basso e aumentatelo secondo necessità.

    • Imposta gli errori delle attività Spark per consentire l'elaborazione in caso di errori temporanei. Dopo aver acquisito familiarità con le caratteristiche e i requisiti di traffico dell'applicazione, ti consigliamo di spark.task.maxFailures impostare un valore limitato.

    • Ad esempio, la seguente configurazione può gestire due attività simultanee per esecutore, per sessione:

      spark.executor.instances = configurable -> number of executors for the session. spark.executor.cores = 2 -> Number of cores per executor. spark.task.cpus = 1 -> Number of cores per task. spark.task.maxFailures = -1
  • Disattiva il raggruppamento in batch.

    • Ti consigliamo di disattivare il batch per migliorare i modelli di accesso casuale. Il seguente frammento di codice ne è un esempio.

      spark.cassandra.output.batch.size.rows = 1 (Default = None) spark.cassandra.output.batch.grouping.key = none (Default = Partition) spark.cassandra.output.batch.grouping.buffer.size = 100 (Default = 1000)
  • SPARK_LOCAL_DIRSImpostato su un disco locale veloce con spazio sufficiente.

    • Per impostazione predefinita, Spark salva i file di output delle mappe e i set di dati distribuiti resilienti (RDDs) in una cartella. /tmp A seconda della configurazione dell'host Spark, ciò può comportare la perdita di spazio sugli errori di stile del dispositivo.

    • Per impostare la variabile di SPARK_LOCAL_DIRS ambiente su una directory chiamata/example/spark-dir, puoi usare il seguente comando.

      export SPARK_LOCAL_DIRS=/example/spark-dir
PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.