Cryptocurrency mining rigs sit on racks

Big Data & Data Engineering

Ottimizzazione delle performance

L’elevata mole di dati da processare e analizzare porta spesso a problemi di performance. Sulla base dell’esperienza maturata in contesti complessi che analizzano grandi moli di dati, EY ha individuato alcune tecniche applicabili ai Big Data finalizzate all’ottimizzazione delle performance:

  • Partizionamento: Distribuire i dati su più tabelle, dischi o partizioni per migliorare le prestazioni di elaborazione delle query o aumentare la gestibilità del database
  • Hashing: Creare id interi sintetici applicando tecniche di hashing alla chiave primaria originale (di solito una combinazione di più colonne e tipi di dati)
  • Caching: Utilizzo dello storage in-memory per ridurre i tempi di interrogazioni
  • Materializzazione: Persistere i risultati di trasformazioni complesse dei dati per evitare calcoli troppo lunghi on the fly
  • Ottimizzazione del codice: Riformulare parte del codice per renderlo più efficiente
  • Ottimizzazione dei data type: Alcuni tipi di dati occupano meno spazio o sono molto più efficienti di altri quando si tratta di relazioni o filtri (ad esempio, numeri interi o stringhe)
  • Ottimizzazione dei cluster: Sfruttare l'elaborazione multiparallela di Spark con una corretta configurazione del cluster
  • Pulizia dei dati: Rimuovere i dati inutilizzati per ridurre i tempi di trasferimento e di calcolo