Home »

Le metriche sono al centro della gestione dei servizi IT fornendo informazioni sulle operazioni e aiutando a identificare le aree di miglioramento continuo. Le consuete metriche del service desk aiutano a mostrare l'efficienza operativa interna. Ad esempio, gli SLA che misurano il numero di ticket risolti entro il tempo specificato è un fattore chiave che evidenzia l'efficienza del service desk. D'altro canto, le metriche dei guasti aiutano i team a identificare i punti deboli dell'infrastruttura IT e a valutare le risposte agli eventi di guasto. Questo aiuta i team IT a ridurre al minimo l'effetto a cascata che i guasti possono causare sui sistemi critici.

Quali sono le principali metriche di guasto da monitorare? In questo articolo vedremo i seguenti tre KPI:

  • Tempo medio tra i guasti
  • Tempo medio prima del guasto
  • Tempo medio di riparazione
 

Tempo medio tra i guasti (MTBF)

Tempo medio tra i guasti (MTBF)

I guasti frequenti delle risorse dell'infrastruttura IT, siano essi reti, server, workstation e così via, hanno un impatto a cascata sulla disponibilità dei servizi IT e aziendali. Queste interruzioni comportano una perdita di fatturato e di reputazione. Se una particolare risorsa IT subisce frequenti tempi di inattività, spesso è necessario ripararlo o sostituirlo. Prima di ciò, è utile indagare e capire perché la risorsa si guasti spesso e in quali circostanze. Questo aiuta a pianificare la manutenzione delle risorse e a migliorare la disponibilità dei sistemi. L'MTBF è la metrica che aiuta a identificare le cause dei tempi di inattività e a mitigarle o a pianificare un rapido ripristino e una migliore disponibilità dei sistemi IT.

Tempo medio tra i guasti

Figura 1. Tempo medio tra i guasti

Se l'MTBF di una particolare risorsa IT è basso, significa che la risorsa subisce frequenti tempi di inattività con conseguenti interruzioni dell'IT e dell'attività.

Esempio di MTBF

In un'organizzazione, i nuovi aggiornamenti dell'unità di archiviazione continuavano a non funzionare ogni volta che venivano applicati nuovi aggiornamenti del firmware di Windows. Ciò si è verificato alcune volte e l'MTBF è peggiorato. Dopo aver analizzato il problema, il team ha stabilito che il driver di terze parti ha fatto sì che l'API necessaria per eseguire l'aggiornamento non fosse implementata o fosse difettosa. Quando è previsto un nuovo aggiornamento, se i driver di terze parti non implementano le API necessarie, è possibile esplorare due soluzioni. Scambiare le API con le alternative di Windows per i protocolli di archiviazione SATA e NVMe o ottenere una nuova versione del driver meglio supportata dal produttore originale può aiutare a implementare gli aggiornamenti, a risolvere i bug e a chiudere le falle nella sicurezza. Il monitoraggio e il controllo degli aggiornamenti dei driver e dei tempi di inattività contribuiscono a migliorare la disponibilità delle unità di archiviazione.

Come migliorare l'MTBF

  • Implementare un processo di osservazione della salute delle risorse per tracciare e monitorare i guasti. Questo aiuta a identificare la causa delle interruzioni.
  • Analizzare la causa principale del problema per creare consapevolezza, affrontare le cause a lungo termine e migliorare le prestazioni delle risorse.
  • Creare una strategia di risposta rapida per affrontare e ridurre efficacemente i tempi di inattività che hanno un impatto sulle operazioni. L'obiettivo è quello di ottenere un minor numero di tempi tra un'interruzione e l'altra.
 

Tempo medio prima
del guasto (MTTF)

Tempo medio prima del guasto (MTTF)

Le risorse che si guastano regolarmente possono interrompere le operazioni IT dell'organizzazione e causare il deterioramento e le prestazioni insufficienti dell'infrastruttura IT. La metrica MTTF aiuta a determinare la durata di vita tipica di una risorsa, dispositivo o componente. Per le risorse e i componenti IT con un MTTF basso, spesso è più efficiente in termini di tempo e riduce al minimo gli impatti operativi e i costi, sostituire il componente IT anziché ripararlo.

Questo vale soprattutto per i componenti IT collegati a elementi operativi cruciali dell'infrastruttura, come uno stack di server mainframe o un punto di accesso alla rete.

Tempo medio prima del guasto

Figura 2. Tempo medio prima del guasto

Se l'MTTF di una risorsa è sfavorevole e si guasta regolarmente, indica che la risorsa IT è inaffidabile e necessita di una sostituzione frequente per evitare un impatto sulle operazioni IT.

Esempio di MTTF

In un'azienda di sviluppo software IT, quando un cavo veniva collegato o scollegato dallo switch nello stack di dati e server di rete, i cavi di rete si allentavano, si scollegavano o si danneggiavano. Questo ha portato alla corruzione dei file a causa dell'interruzione del trasferimento dei dati. Un'analisi più approfondita da parte del team di rete ha rivelato che la copertura in plastica senza strappi continuava a rompersi sul cavo patch CAT6 RJ45. Ciò è dovuto al fatto che il cavo è stato acquistato da un produttore che ha utilizzato materiale scadente. Il team IT ha quindi sostituito i vecchi cavi con altri di qualità migliore per assicurarsi che in futuro non si verifichino problemi, come la perdita o la corruzione dei dati, quando i cavi vengono spostati. Questo è un esempio classico, ma tracciare il MTTF del cavo su base regolare aiuta i team IT a comprendere l'impatto delle risorse critiche, come i componenti, in modo da poter prendere decisioni informate su riparazioni e sostituzioni.

Come aumentare l'MTTF

  1. Aumentare la durata di vita delle risorse acquistando beni di alta qualità e smantellando quelli di bassa qualità e costo.
  2. Prevenire le interruzioni su larga scala delle attività aziendali programmando controlli regolari sui componenti collegati alle risorse critiche.
  3. Implementare un processo di inventario just-in-time che stima il tempo di funzionamento di una risorsa, con conseguente riduzione dei costi generali di archiviazione delle risorse.

Tempo medio di
riparazione (MTTR)

Tempo medio di riparazione (MTTR)

Quando un sistema IT critico si guasta, i team IT devono rimetterlo in funzione il prima possibile. I ritardi nel ripristino dei sistemi IT possono comportare perdite di fatturato e impattare sulle operazioni aziendali critiche. Un sistema di ripristino e risposta ben organizzato può aiutare i team IT a rispondere ai tempi di inattività non pianificati e a ripristinare le operazioni in modo efficace. Il MTTR misura il tempo medio necessario per riparare o risolvere i problemi di una risorsa e riportarlo alla sua capacità operativa.

Tempo medio di riparazione

Figura 3. Tempo medio di riparazione

Il costo dei tempi di inattività aumenta con l'aumentare dell'MTTR. Un MTTR elevato indica che le operazioni di recupero e risposta non sono rapide ed efficaci. I guasti ai sistemi sono inevitabili, ma l'MTTR consente ai team di reagire ai guasti delle risorse in modo tempestivo e strategico.

Esempio di MTTR

Una società di software ha subito un attacco zero-day a un videogioco che stava sviluppando a causa di una vulnerabilità in un codice. L'attacco ha interrotto operazioni come il Wi-Fi e i sistemi di sorveglianza. Questo ha portato gli aggressori ad accedere al dominio di rete dell'organizzazione e ai file aziendali riservati. Il team di cybersecurity ha informato i dipendenti sugli attacchi zero-day e su dove possono segnalarli. Ogni risorsa IT dell'organizzazione è stata dotata di antivirus di nuova generazione (NGAV). L'attacco ha disattivato la LAN e il portale self-service dei dipendenti, paralizzando le operazioni dell'organizzazione. Entro un'ora dall'attacco, il team di cybersecurity è stato informato e aiutato dalla capacità di NGAV, che sfrutta l'analisi delle minacce e i modelli di comportamento degli utenti, e ha identificato l'attività sospetta. Il team di cybersecurity ha immediatamente eseguito uno script di gestione delle patch per correggere la vulnerabilità nel codice e ha bloccato la rete on-premise per evitare ulteriori impatti sulle operazioni e il furto di dati.

Come ridurre l'MTTR

  1. Una strategia di gestione delle risorse contribuisce a migliorare il processo decisionale, identificando i colli di bottiglia e designando le risorse da riparare o sostituire. In questo modo si risparmia denaro e spazio di archiviazione.
  2. Definire le responsabilità e i ruoli dei tecnici per semplificare il processo di rilevamento e risoluzione degli incidenti.
  3. Fornire ai tecnici procedure operative standard dettagliate per ridurre gli errori di comunicazione e la confusione durante i tempi di inattività.
  4. Misurare l'MTTR utilizzando una soluzione di Enterprise Asset Management che centralizza le informazioni sulla manutenzione e il monitoraggio delle risorse. Questo aiuta anche a ottimizzare l'utilizzo delle risorse, a raccogliere dati sulle risorse e a prevedere i possibili tempi di inattività.
 

Conclusione

Conclusione

Queste metriche sui guasti aiutano i team a identificare i colli di bottiglia nelle operazioni e la loro reattività agli incidenti. Consentono ai team IT di raggiungere una maggiore efficienza operativa individuando la causa principale degli incidenti persistenti. I team IT possono migliorare la loro strategia di risposta agli incidenti grazie a un quadro chiaro delle aree in cui le operazioni IT subiscono un impatto. Queste metriche possono essere implementate nelle organizzazioni utilizzandole come KPI piuttosto che come semplici obiettivi di performance. Le metriche indicano le aree di semplificazione dei processi e i miglioramenti operativi, e non sono solo obiettivi da raggiungere.

Un rapido riepilogo di ciascuna metrica:

  • L'MTBF fornisce una migliore comprensione dell'efficacia del service desk nel prevenire futuri disservizi.
  • L'MTTF aiuta a comprendere il ciclo di vita di una risorsa e la sua affidabilità.
  • L'MTTR indica il tempo impiegato per le riparazioni e la rapidità con cui i team IT sono in grado di diagnosticare le interruzioni.
Saket

L'autore

Saket Pasumarthy, esperto di prodotti di ManageEngine ServiceDesk Plus, è un appassionato di ITSM ed è affascinato dalle ultime novità nel settore IT. Saket scrive articoli e blog che aiutano i team di gestione dei servizi IT a livello globale a gestire le sfide della gestione dei servizi. Inoltre, presenta sessioni di formazione per gli utenti nella serie ServiceDesk Plus Masterclass. Saket passa il tempo libero giocando a calcio e pilotando aerei su un simulatore di volo.

Domande frequenti

Valuta rapidamente le pratiche di gestione degli incidenti IT con il nostro toolkit

  • Una valutazione con autovalutazione per misurare le vostre pratiche fondamentali di gestione degli incidenti, dall'identificazione alla chiusura
  • Una lista di controllo per verificare la preparazione del team ad affrontare gli incidenti gravi nell'ambiente di lavoro ibrido
  • Un foglio informativo che aiuta a superare le sfide comuni della gestione degli incidenti nel modello di lavoro ibrido
 

Quest'anno vuoi sostituire il tuo strumento ITSM? *

Cliccando su ' Scarica il toolkit', acconsenti al trattamento dei tuoi dati personali nel rispetto dell’Informativa sulla privacy.

Scelto dalle migliori organizzazioni al mondo

Sfrutta la potenza a 360° di ITSM