Ottimizzazione delle performance
L’elevata mole di dati da processare e analizzare porta spesso a problemi di performance. Sulla base dell’esperienza maturata in contesti complessi che analizzano grandi moli di dati, EY ha individuato alcune tecniche applicabili ai Big Data finalizzate all’ottimizzazione delle performance:
- Partizionamento: Distribuire i dati su più tabelle, dischi o partizioni per migliorare le prestazioni di elaborazione delle query o aumentare la gestibilità del database
- Hashing: Creare id interi sintetici applicando tecniche di hashing alla chiave primaria originale (di solito una combinazione di più colonne e tipi di dati)
- Caching: Utilizzo dello storage in-memory per ridurre i tempi di interrogazioni
- Materializzazione: Persistere i risultati di trasformazioni complesse dei dati per evitare calcoli troppo lunghi on the fly
- Ottimizzazione del codice: Riformulare parte del codice per renderlo più efficiente
- Ottimizzazione dei data type: Alcuni tipi di dati occupano meno spazio o sono molto più efficienti di altri quando si tratta di relazioni o filtri (ad esempio, numeri interi o stringhe)
- Ottimizzazione dei cluster: Sfruttare l'elaborazione multiparallela di Spark con una corretta configurazione del cluster
- Pulizia dei dati: Rimuovere i dati inutilizzati per ridurre i tempi di trasferimento e di calcolo