Molti, tanti, troppi hanno già scritto del clamoroso down di Amazon di qualche settimana fa.
Invece di ridere, piangere o criticare Amazon, sono andato a documentarmi un attimo: dopo aver letto, mi è venuta in mente qualche riflessione che voglio condividere con te, sul tipo di errori e su possibili insegnamenti che chi si occupa di IT può trarre da vicende come questa.
I fatti
Amazon ha subito un fermo di una parte dei suoi servizi che ha causato un blocco totale o parziale di oltre 150.000 aziende e/o applicazioni web, alcuni anche molto noti, come Netflix, Spotify, Pinterest e altri. Amazon doveva mettere fuori linea un server minore (probabilmente per manutenzione) è invece è andato giù mezzo mondo.
Il motivo (complimenti ad Amazon che lo ha ammesso) è il banale errore di un tecnico mentre digitava qualche comando attraverso la mitica “command line”.
La riflessione
Nell’era always on (tutto sempre e subito, h24) la natura di questo errore suscita subito una riflessione. Non so che comando dovesse essere impartito per portare fuori linea il server di Amazon, poco importa: la questione è che gli errori umani sono dietro l’angolo, basta un nulla.
Fare errori per gli uomini di IT è facilissimo:
- non ti ricordi esattamente il comando;
- lavori tardi la sera (o la notte), quindi sei stanco e deconcentrato;
- sei di malumore e quindi non hai la testa dove dovrebbe essere;
- sei di fretta e quindi non prendi le dovute precauzioni;
- fai azioni ripetitive quindi la tua concentrazione cala.
Lo dico anche per esperienza: ieri ho inviato una email alle 0.47 (ora italiana) a uno che sta in California: ho dovuto rileggerla 7 volte per essere sicuro di aver scritto tutto bene e di essere riuscito a trasferire quello che volevo dirgli.
Se mi fossi messo a digitare qualche command line sui miei server a quell'ora non immagino che pasticci avrei potuto combinare.
Cosa possiamo imparare
La maggior parte delle operazioni di manutenzione può essere “scriptata” ossia infagottata in un pacchetto pronto da usare senza collegare il cervello.
Questo abbatte tantissimo le possibilità di errore: affidando l'impacchettamento delle istruzioni a chi se ne intende (persone competenti) e verificando la correttezza iniziale, nei successivi infiniti riutilizzi si può dormire sonni tranquilli, indipendentemente dal fatto che l'operazione passi per le mani di utenti più o meno esperti o che sia affidata a un sistema automatico che schedula le attività (script) di manutenzione.
Cosa possiamo scriptare e automatizzare per abbassare la probabilità che un tecnico faccia un errore?
Praticamente tutto:
- fermare server
- riavviare server
- installare aggiornamenti
- apportare modifiche al registro di sistema
- eseguire comandi da remoto senza interferire con l’utente
- …
L’elenco è pressoché infinito.
E una volta che hai lo script o il comando giusto, per distribuirlo sui tuoi server e PC ti basta un sistema RMM (Remote Monitoring e Management) come per esempio Kaseya o AEM.
Automatizzare la gestione dei sistemi abbassa le probabilità di errore, ovvero erogare servizi migliora la vita dei tuoi clienti.
Si chiama Change Management. tutto qui