Roberto Salcioli di PC System ci racconta cosa gli è accaduto quest'estate con un cliente che improvvisamente si è ritrovato ad avere il sistema in down.

Sono sicuro che, in quanto fornitore di servizi IT, anche a te sarà successo almeno una volta di trovarti in una situazione simile.

Ma cosa sarebbe successo se il suo cliente avesse scelto di utilizzare una soluzione diversa per proteggere i suoi dati? La storia sarebbe andata allo stesso modo?

Buona lettura.


Ora che fa più freschino trovo la forza di scrivere quello che mi è successo l'estate appena passata.

Prima settimana di agosto, caldo torrido e tre giorni alle ferie.
C'è il classico iter di fine mese: attività da chiudere; verifica delle cose da fatturare; idee da sviluppare per migliorare il monitoraggio, da condividere con i colleghi che lavoreranno a cavallo di ferragosto quando finalmente la pressione del quotidiano sarà attenuata.

I soliti buoni propositi: "Oh! niente scherzi, prima delle ferie definiamo tutto". 
Agenda completa al 100%.

I colleghi (e competitor) che erogano servizi gestiti si riconosceranno in questa situazione.

Mercoledì mattina: una collega mi chiama al cellulare, il sistema di un cliente piuttosto importante, una decina di macchine virtuali e trenta client locali, è offline.

Vediamo… magari è un falso allarme ed hanno solo un problema di connettività. Dopo pochi secondi un'altra chiamata, è il cliente:

"Siamo fermi, dobbiamo fatturare, mi raccomando, ciao".

Accediamo in VPN, il verdetto del modulo di management è chiaro: problema su un controller SAS.
"Porca miseria... quel sistema è evoluto ed ha tutte le funzionalità ridondate, strano che l'altro device non abbia funzionato".

Ne parlo con Emanuele, il sistema è in down e da remoto non possiamo fare altro.
"Dai, conviene andare sul posto. Magari basta resettare il device e riparte. Così facciamo prima e nel pomeriggio siamo nuovamente in ufficio" è la proposta di Emanuele.

Ma lo dice senza convinzione, ha già avuto un'esperienza analoga con lo stesso tipo di hardware, a dire il vero ottimo e performante, ma quella volta direi un po' capriccioso. Il ricordo che affiora è quello di una notte al telefono con il supporto H24 del brand con il timore di aver perso i dati dell’intera giornata.
   
Non noto il classico ottimismo di Emanuele e questo non mi incoraggia.
 
Per far prima andiamo insieme: Emanuele conosce quel sistema meglio di me mentre io sono più aggiornato sulle funzionalità delle VM e sulle dinamiche del cliente.
E' a un'ora di macchina, partiamo con il lampeggiante acceso, come definiamo scherzosamente gli interventi di questo tipo.

Durante il viaggio apriamo la chiamata al numero verde del brand, ci raccomandiamo con l'operatore visto che il cliente ha un contratto top ed ha diritto al massimo livello di supporto. Aggiungo che l'esito dell'ultimo backup è ok. Bene, un po' di buone notizie... 

Sul posto il reset non risolve, iniziamo la comunicazione con il supporto del brand, ci dicono che scalano al livello superiore.

Dopo la mezz'ora canonica il cliente non resiste:

"tra poco lavoriamo, vero?". 
"Vediamo, speriamo di sì…". 

Mentiamo a fin di bene.

Prendiamo tempo per pensare a come uscire dal problema. Se il supporto, che nel frattempo è scalato sul team in India, non risolve non credo che ci lasceranno uscire dalla sala server senza un piano. 

"A che punto siamo? Dobbiamo fatturare!" ci ricordano.

Addio agenda e buoni propositi.
 

 
Fino a metà pomeriggio seguiamo le operazioni del supporto che chiaramente si è attivato per spedire la parte di ricambio ed inviare un tecnico sul posto, poi pensiamo al piano B.

Decidiamo di portare un muletto sul quale caricheremo i dati salvati sul NAS, ovviamente l'altro backup che viene effettuato su un'area dedicata dello storage stesso non è accessibile. La terza opzione, la replica delle VM su un server aggiuntivo è disattivata da un po' di tempo per motivi tecnici.
 
Rientriamo in sede, configuro ed aggiorno un muletto che ho già pronto in laboratorio, verifico lo spazio libero perché le VM da caricare sono piuttosto grandi.

Lancio il restore dal loro Nas, la percentuale di avanzamento del task mi avverte che sarà una cosa lunga

La rete è veloce ed il muletto è attuale, ma i dati sono molti e non c'è spazio per la fretta. La sera mi collego più volte da remoto e controllo come avanza la procedura, è andata peggio a Emanuele che sta seguendo il ticket con il supporto ed ogni volta mi aggiorna tramite messaggio o mail.

Il mattino presto è stessa storia, messaggi di Emanuele e la barra di avanzamento che è ancora a tre quarti. Ci dividiamo i compiti, io vado in sede per completare il muletto e Emanuele va sul posto insieme ai tecnici del brand.

L’architettura è complessa, non c'è tempo per caricare alcune VM secondarie così semplifichiamo provvisoriamente il sistema per ripartire al più presto. Condividiamo un po' di decisioni ed il cliente torna attivo a metà pomeriggio lavorando sul muletto.

Il tecnico del brand è sempre al telefono con i suoi colleghi dall'India, lo vedo pensieroso.
Problema lungo da risolvere, tempi di ripartenza biblici, tempo e soldi spesi da parte di tutti: il cliente e noi come fornitore di servizi IT.

Mi viene in mente il film "Sliding Doors", hai presente quello in cui in base a una semplice scelta cambia tutta la vita di una persona?

Ecco la stessa cosa applicata al disaster recovery.

“Pronto, ciao Gianfranco… hai valutato l’offerta di Datto che ti abbiamo illustrato?”.
“Si... interessante ma ne parliamo il prossimo anno, ora non è il momento”.

Risultato: tutta la storia che avete appena letto (che è successa davvero)

"Pronto, ciao Gianfranco… hai valutato l’offerta di Datto che ti abbiamo illustrato?".
"Si... certo, molto interessante! Ti invio l'offerta firmata".

Quando c'è stato un problema (perché il problema è solo sapere quando si verificano i guasti, non se si verificano) il risultato è stato molto diverso: abbiamo verificato il guasto sui sistemi in produzione, abbiamo accesso le macchine virtualizzate istantaneamente sul device Datto, abbiamo collaudato il sistema.

Il cliente è tornato attivo in circa mezz'ora.

Con calma abbiamo seguito la chiamata che abbiamo aperto al supporto del brand.
Anche quest'ultima è una storia che è successa davvero presso un'altra azienda, non la precedente.


Anche tu, come Roberto, sei interessato a far ripartire la tua azienda o i tuoi clienti i meno di mezz'ora in caso di disastro? Prova subito Datto.
 

 

Condividi sui Social Network