Soluzioni tecniche

La deduplica: chi era costei?

09 Ottobre 2012

È una delle parole magiche dell’informatica degli ultimi anni: la deduplica.
È un po' come andare in giro senza felpa di Abercrombie: se non la indossi, non sei nessuno.
Per la deduplica sembra uguale: se non ce l'hai allora non va bene.

Deduplica dati

Cos'è davvero la deduplica, a cosa serve e come funziona?

Partiamo da Wikipedia, dove leggo e traduco liberamente: “La deduplica dei dati è una forma particolare di compressione che elimina i dati doppi o ripetuti. Questa tecnica si utilizza per ottimizzare lo storage e si può anche utilizzare in ambienti di rete per ottimizzare il traffico dei dati. Nel processo di deduplica un insieme di byte 'unici' vengono scritti su disco durante il processo di analisi dei dati. Col procedere dell’analisi dei dati tutti i blocchi di byte vengono confrontati con quelli già memorizzati e, se sono ridondanti, non vengono memorizzati ma si mette solo un puntatore al dato effettivo”.

Proviamo a fare un esempio per rendere più chiaro il concetto.
I dieci dipendenti di un'azienda ricevono un'email con un allegato.
Se tutti i dipendenti da bravi salvano l’allegato sul file server, ecco che abbiamo dieci volte ripetuta la stessa informazione, ossia il file ricevuto in allegato.
Per avere un’idea del concetto di deduplica si deve pensare ad avere una sola copia del file originale e nove "puntatori" collegati all’informazione effettivamente memorizzata.

L'applicazione più diffusa della deduplica è nel campo dello storage dove è estremamente elevato il rischio di avere informazioni duplicate.
Questo è in particolar modo vero nei processi di backup dove vengono eseguite regolarmente copie di dati che in realtà non cambiano molto spesso: un buon sistema di deduplica è in grado di ridurre sensibilmente lo spazio occupato dai backup su disco.
Il che si traduce nel poter acquistare meno dischi o nel poter memorizzare più informazioni a parità di storage.


Esitono fondamentalmente due tecniche per eseguire la deduplica: "al volo" o "a posteriori" (rispettivamente in-line e post-process).

  • Deduplica post-process

Con la deduplica post-process, i dati vengono scritti su disco senza verificare come sono fatti.
La deduplica ha luogo in un secondo momento, il che consente di non avere rallentamenti nello storage e non richiede particolari capacità di calcolo.
Per contro vengono sistematicamente memorizzati tutti i dati, buona parte dei quali verranno cancellati dalla deduplica, sprecando quindi, all’inizio, spazio disco.

  • Deduplica in-line

Con la deduplica in-line gli algoritmi per eliminare la ridondanza entrano in gioco non appena i dati stanno per essere scritti sui dischi e questo processo avviene in tempo reale: se stanno arrivando dei dati i cui blocchi costitutivi sono già presenti su disco, allora si memorizzano solo dei puntatori ai blocchi che contengono i dati veri e propri; se invece i dati che arrivano sono nuovi, vengono memorizzati regolarmente.
Il vantaggio principale della deduplica in-line è che richiede molto meno spazio disco rispetto alla deduplica post-process, dove i dati vengono memorizzati subito e sottoposti a processo di deduplica solo successivamente: quindi ci deve essere spazio sufficiente per contere tutti i dati, anche quelli ridondanti.
Per contro questo sistema richiede capacità di calcolo  non indifferenti, perché se il sistema di deduplica è lento, anche lo storage risulta lento (e questo non sarebbe accettabile).

Che mondo sarebbe senza deduplica?

Autore
Claudio Panerai
Gli ultimi prodotti che vi ho portato, nel 2020: Vade Secure Il primo sistema antispam/antihishing/antimalware basato sull'intelligenza artificiale e appositamente progettato per Office 365. Naturalmente a misura di MSP. ID Agent Piaffaforma che consente agli MSP di monitorare le credenziali (proprie e dei clienti) che sono in vendita nel dark web.
Nato a Ivrea nel 1969, è sposato e padre di due figlie. Laureato in Scienze dell’Informazione nel 1993, ha dapprima svolto numerose consulenze e corsi di formazione per varie società per poi diventare responsabile IT per la filiale italiana del più grande editore mondiale di informatica, IDG Communications. Dal 2004 lavora in Achab dapprima come Responsabile del Supporto Tecnico per poi assumere dal 2008 la carica di Direttore Tecnico. Giornalista iscritto all’albo dei pubblicisti, dal 1992 pubblica regolarmente articoli su riviste di informatica e siti web di primo piano. E' stimato da colleghi e clienti per la schiettezza e onestà intellettuale. Passioni: viaggi, lettura, cinema, Formula 1, sviluppo personale, investimenti immobiliari, forex trading. Claudio è anche su LinkedIn e Facebook.
Commenti (4)
Iscriviti
Notificami
guest
4 Commenti
Più vecchio
Più recente Più votato
Inline Feedbacks
Guarda tutti i commenti
Stefano Contato
Stefano Contato
52 anni fa

Infatti il best è con i backup !!!

Claudio Panerai
Claudio Panerai
52 anni fa

Si, Stefano: la massima efficienza e utilità della deduplica si ha proprio nei sistemi di backup (che la supportano).

Angel
Angel
7 anni fa

Emc Avamar o DDBoost con Data Domain supportano la deduplica, in questo caso in-line.
Aggiungerei all’articolo che in una realtà client-server la deduplica in line ha il vantaggio di mantenere basso il throughput di rete.

Claudio Panerai
Claudio Panerai
7 anni fa

Confermo Angel, la deduplica in-line secondo il mio modo di vedere è la soluzione ideale.