Table of Contents
SLA Base
Cosa è lo SLA
Per chi non sapesse cosa si intende per SLA, ovvero "Service Level Agreement", si tratta di una clausola contrattuale o comunque di una caratteristica di un servizio che dovrebbe stare a indicare in che termini il servizio garantisce di essere funzionante e disponibile. Per esempio, un servizio che garantisce il 99.5% di disponibilità in un anno dovrebbe avere al massimo lo 0,5% di tempo di fermo su 365 giorni, che sono circa 43 ore in un anno.
Ci sono fornitori che ti vendono affermazioni ridicole come "ti garantiamo il 99.5% di disponibilità", o anche il 99.95% di disponibilità, per alcuni.
Ora non ci vuole un genio a capire che nessuno ti può *garantire* niente. Uno può *fare del suo meglio*, ma garantire proprio no. Ci sono infiniti possibili incidenti che potrebbero verificarsi e rendere impossibile mantenere la promessa fatta. Qualsiasi sistema ridondante avrà sempre modo di rompersi o di avere un disservizio, specie su internet, dove il servizio è erogato passando attraverso strutture complesse e non tutte gestite dallo stesso fornitore.
Introduciamo quindi lo SLA Base
Dal momento che nessuno può realmente garantirti nulla, io propongo una soluzione che chiameremo "SLA Base", ovvero una soluzione realmente applicabile al mondo reale. Quello che propongo è ciò che nel mondo reale accade, anziché ciò che le brochure vogliono indurti a credere. Se abbracciamo questo semplice concetto vivremo tutti più sereni senza farci illusioni. "Se va va, se non va non va." Questa semplice frase rappresenta l'unica verità incontestabile. Pensateci su un momento. Qualsiasi sistema può guastarsi, qualsiasi servizio può risultare inaccessibile o inutilizzabile. Accettate questa semplice verità e avrete raggiunto l'illuminazione.
Digressione sul carattere aleatorio delle anomalie
Molto spesso, quando qualcosa smette di funzionare basta aspettare qualche minuto o qualche ora, e tornerà a funzionare da solo. Questo genere di situazioni mi è già capitato così tante volte che oramai se non si tratta di un problema veramente critico trovo che l'approccio corretto sia ignorare il problema per un paio d'ore e vedere se per caso si è risolto da solo. Se non si è risolto da solo, allora mi dovrò davvero mettere a guardare cosa è successo.
Dell'utilità del monitoraggio
Se consideriamo la precedente affermazione (che spesso i problemi spariscono da soli così come sono apparsi) allora ci troviamo di fronte ad un'altra verità: il monitoraggio è inutile. A che scopo spendere tempo e soldi per essere avvisati immediatamente di un problema? Molto meglio non sapere nulla fino a che non saranno gli utenti del servizio a segnalarci l'anomalia, in questo modo otteniamo ben due vantaggi:
- Non spendiamo soldi per il monitoraggio
- Veniamo avvisati di un problema solo quando in effetti impatta qualcuno, e se il problema non impatta nessuno viviamo più sereni.
Quando il monitoraggio diventa necessario
Purtroppo c'è una categoria di problemi che dobbiamo tenere sotto monitoraggio, e sono quelli che sappiamo a priori che non impatteranno mai gli utenti. Per esempio il guasto di un disco in un RAID non verrà mai segnalato dagli utenti, così come un malfunzionamento in un sistema di backup. Questo genere di problemi dobbiamo monitorarli per forza.