Metryki są sercem zarządzania usługami IT, dostarczając wgląd w operacje i pomagając określić obszary ciągłego doskonalenia. Zwykłe wskaźniki Service Desk pomagają określić wewnętrzną wydajność operacyjną. Na przykład, SLA mierzy liczbę zgłoszeń rozwiązanych w określonym czasie i jest kluczowym czynnikiem świadczącym o wydajności działu service desk. Z drugiej strony, wskaźniki awarii pomagają zespołom zidentyfikować słabości infrastruktury IT i pomagają ocenić reakcje na awarie. Pomagają zespołom IT zminimalizować efekt kaskadowy, jaki awarie mogą wywołać w krytycznych systemach.
Jakie są kluczowe wskaźniki awarii, które należy śledzić? W tym artykule przyjrzymy się następującym trzem wskaźnikom KPI:
- Średni czas między awariami
- Średni czas do wystąpienia awarii
- Średni czas naprawy
Średni czas między awariami (MTBF)
Jeżeli występują częste awarie zasobów infrastruktury IT, takich jak sieci, serwerów, stacji roboczych itp. będą miały one kaskadowy wpływ na dostępność usług informatycznych i biznesowych. Problemy te prowadzą do utraty przychodów i reputacji. Jeśli jakiś zasób IT ma częste przestoje, często wymaga naprawy lub wymiany. Jednak wcześniej warto sprawdzić i zrozumieć, dlaczego aktywa często mają przestoje i w jakich okolicznościach. Pomoże to zaplanować czynności konserwacyjne zasobów i poprawić dostępność systemów. MTBF jest wskaźnikiem, który pomaga zidentyfikować przyczyny przestojów i pomaga złagodzić je lub zaplanować szybkie przywracanie sprawności i lepszą dostępność systemów IT.
Rysunek 1. Średni czas między awariami
Jeśli współczynnik MTBF danego zasobu IT jest niski, oznacza to, że zasób ten ma częste przestoje, co prowadzi do zakłóceń w IT i w biznesie.
Przykład MTBF
W pewnej organizacji nowe aktualizacje dysku twardego kończyły się niepowodzeniem za każdym razem, gdy stosowano nowe aktualizacje oprogramowania układowego systemu Windows. Zdarzyło się to kilka razy, a współczynnik MTBF pogorszył się. Po analizie problemu zespół ustalił, że sterownik innej firmy spowodował, że interfejs API wymagany do przeprowadzenia aktualizacji nie został zaimplementowany lub był wadliwy. Przy planowaniu nowej aktualizacji, jeśli sterowniki firm trzecich nie stosują niezbędnych API, istnieją dwa możliwe rozwiązania do zbadania. Zamiana interfejsów API na alternatywny dla systemu Windows dla protokołów pamięci masowej SATA i NVMe lub uzyskanie nowej i lepiej obsługiwanej wersji sterownika od producenta OEM co pomoże we wdrożeniu aktualizacji, naprawieniu błędów i usunięciu luk w zabezpieczeniach. Monitorowanie i śledzenie aktualizacji sterowników oraz przestojów pomaga zwiększyć dostępność napędów pamięci masowej.
W jaki sposób poprawić MTBF?
- Wdrożyć proces obserwacji stanu zasobów w celu śledzenia i monitorowania awarii. Pomoże to zidentyfikować przyczynę zakłóceń.
- Przeanalizować podstawową przyczynę problemu, aby zwiększyć świadomość, zająć się przyczynami długoterminowymi i poprawić wydajność zasobów.
- Stworzyć strategię szybkiego reagowania, aby skutecznie radzić sobie z przestojami, które mają wpływ na operacje. Celem jest zmniejszenie liczby wystąpień i wydłużenie czasu między zakłóceniami.
Średni czas do wystąpienia
awarii (MTTF)
Regularne awarie zasobów mogą zakłócać operacje IT w twojej organizacji i skutkować pogorszeniem jakości i wydajności infrastruktury IT. Wskaźnik MTTF pomaga określić typową żywotność zasobu, urządzenia lub komponentu. W przypadku zasobów i komponentów IT o niskim MTTF, często wymiana komponentu IT zamiast naprawy jest bardziej efektywna czasowo i minimalizująca wpływ operacyjny i koszty.
Dotyczy to w szczególności komponentów IT związanych z kluczowymi elementami operacyjnymi infrastruktury, takimi jak stos serwera mainframe lub punkt dostępu do sieci.
Rysunek 2. Średni czas do wystąpienia awarii
Jeśli MTTF zasobu jest niekorzystny i regularnie ulega on awarii, oznacza to, że zasób ten jest niepewny i wymaga częstej wymiany, aby uniknąć wpływu na operacje IT.
Przykład MTTF
W firmie zajmującej się tworzeniem oprogramowania IT, kiedy kabel był podłączany lub odłączany od przełącznika w stosie serwerów danych i sieci, kable sieciowe luzowały się i rozłączyły lub ulegały uszkodzeniu. Prowadziło to do uszkodzenia plików z powodu przerw w transferze danych. Dalsza analiza przeprowadzona przez zespół sieciowy wykazała, że plastikowa osłona wtyku pękała na kablu sieciowym CAT6 RJ45. Wynikało to z faktu, że kabel został zakupiony od producenta, który użył taniego materiału. Następnie zespół IT wymienił stare kable na kable lepszej jakości, aby upewnić się, że w przyszłości, w przypadku poruszenia kabli, nie wystąpią podobne problemy, takie jak utrata lub uszkodzenie danych. Jest to klasyczny przykład, gdzie regularne śledzenie parametru MTTF kabla pomogło zespołom IT zrozumieć wpływ krytycznych zasobów, takich jak komponenty, dzięki czemu mogli podjąć świadomą decyzje dotyczące naprawy lub wymiany.
W jaki sposób zwiększyć MTTF
- Wydłużenie okresu eksploatacji aktywów poprzez nabywanie aktywów wysokiej jakości i wycofywanie z eksploatacji aktywów niskiej jakości i o niskiej cenie.
- Zapobieganie zakłóceniom w działalności biznesowej na dużą skalę, przez planowanie regularnych kontroli komponentów powiązanych z krytycznymi zasobami.
- Wdrożenie procesu inwentaryzacji just-in-time, który szacuje czas działania zasobu, co prowadzi do zmniejszenia kosztów ogólnych związanych z przechowywaniem zasobów.
Średni czas
naprawy (MTTR)
Kiedy krytyczny system IT ulegnie awarii, zespoły IT muszą jak najszybciej przywrócić jego działanie. Opóźnienia w przywracaniu systemów IT mogą prowadzić do utraty przychodów i wpływać na krytyczne operacje biznesowe. Dobrze zorganizowany system odzyskiwania i reagowania może pomóc zespołom IT reagować na nieplanowane przestoje i skutecznie przywracać prawidłowe działanie. MTTR mierzy średni czas potrzebny na naprawę lub usunięcie usterki zasobu i przywrócenie go do zdolności operacyjnej.
Rysunek 3. Średni czas naprawy
Koszt przestoju rośnie wraz ze wzrostem wskaźnika MTTR. Wysoki wskaźnik MTTR sugeruje, że operacje odzyskiwania i reagowania nie są szybkie i skuteczne. Awarie systemów są nieuniknione, ale MTTR umożliwia zespołom reagować na awarie zasobów w sposób terminowy i strategiczny.
Przykład MTTR
Firma programistyczna doświadczyła ataku zero-day na tworzoną przez nich grę wideo z powodu luki w kodzie. Atak zakłócił działanie sieci Wi-Fi i systemów monitoringu. Doprowadziło to do uzyskania przez atakujących dostępu do domeny sieciowej organizacji i poufnych plików biznesowych. Zespół ds. cyberbezpieczeństwa poinformował pracowników o atakach typu zero-day i o tym, gdzie można je zgłaszać. Każdy zasób IT w organizacji był wyposażony w oprogramowanie antywirusowe nowej generacji (NGAV). Atak wyłączył sieć LAN i portal samoobsługowy pracowników, paraliżując działanie organizacji. W przeciągu godziny od ataku zespół ds. cyberbezpieczeństwa został poinformowany i zidentyfikował podejrzaną aktywność dzięki możliwościom NGAV, która wykorzystuje analizę zagrożeń i wzorce zachowań użytkowników. Zespół ds. cyberbezpieczeństwa natychmiast uruchomił skrypt do zarządzania poprawkami, aby naprawić lukę w kodzie i zablokował swoją sieć lokalną, aby uniknąć dalszego wpływu na operacje i kradzieży danych.
W jaki sposób zmniejszyć MTTR?
- Stosowanie strategii zarządzania aktywami pomaga w podejmowaniu lepszych decyzji poprzez identyfikację wąskich gardeł i wyznaczanie aktywów do naprawy lub wymiany. Oszczędza to pieniądze i przestrzeń magazynową.
- Zdefiniowanie obowiązków i ról techników, aby usprawnić proces wykrywania i rozwiązywania incydentów.
- Zapewnienie technikom szczegółowych procedur operacyjnych w celu ograniczenia nieporozumień i nieporozumień podczas przestojów.
- Pomiar MTTR stosując rozwiązania Enterprise Asset Management, które przechowuje centralnie informacje o konserwacji i monitorowaniu zasobów. To również pomaga zoptymalizować wykorzystanie zasobów, gromadzić dane o zasobach i przewidywać możliwe przestoje.
Wnioski
Metryki awarii pomagają zespołom zidentyfikować wąskie gardła w operacjach i ich wpływ na incydenty. Umożliwiają one zespołom IT osiągnąć wyższą wydajność operacyjną poprzez wskazanie pierwotnej przyczyny uporczywych incydentów. Zespoły IT mogą ulepszyć swoją strategię reagowania na incydenty dzięki jasnemu obrazowi obszarów, na które mają wpływ operacje IT. Wskaźniki te można wdrożyć w organizacjach, wykorzystując je jako KPI, a nie tylko cele wydajnościowe. Wskaźniki wskazują obszary dla uproszczenia procesów i usprawnień operacyjnych, a nie tylko cele do osiągnięcia.
Krótkie podsumowanie każdego wskaźnika:
- MTBF zapewnia lepszy wgląd w skuteczność działu service desk w zapobieganiu przyszłym zakłóceniom.
- MTTF pomaga zrozumieć cykl życia zasobu i określić jego niezawodność.
- MTTR pokazuje czas poświęcony na naprawę i szybkość, z jaką zespoły IT są w stanie zdiagnozować zakłócenia.
O autorze
Saket Pasumarthy, ekspert ds. produktów w ManageEngine ServiceDesk Plus, jest entuzjastą ITSM i fascynuje się najnowszymi osiągnięciami w dziedzinie IT. Saket pisze artykuły i blogi, które pomagają zespołom zarządzania usługami IT na całym świecie radzić sobie z wyzwaniami związanymi z zarządzaniem usługami. Prowadzi również sesje edukacyjne dla użytkowników w ramach serii ServiceDesk Plus Masterclass. Saket spędza wolny czas grając w piłkę nożną i pilotując samoloty na symulatorze lotu.
