Zarządzanie poważnymi zdarzeniami: Przegląd

Zarządzanie poważnymi zdarzeniami: Przegląd

Jest poniedziałek rano i w dziale obsługi nie dzieje się nic nadzwyczajnego. Nagle otrzymujesz bilet z alertem: krytyczna usługa nie działa, a w ciągu następnych 15 minut zaczynasz otrzymywać napływ biletów dotyczących tego samego problemu. Bilety mogą dotyczyć niedziałającej strony internetowej. Możliwe, że oprogramowanie punktu sprzedaży przestało działać, a może problem jest jeszcze gorszy: giełda przestała działać lub samoloty zostały uziemione. Kiedy Twoja firma zostałaby poważnie dotknięta problemem IT, który doprowadziłby do straty przychodów i/lub reputacji, masz do czynienia z poważnym incydentem.

Twoja reakcja na poważne zdarzenie ma ogromny wpływ na minimalizowanie jego skutków i przywrócenie usług. Mówi się, że czas to pieniądz — w tym przypadku to stuprocentowa prawda. Jeśli w Twojej organizacji został wdrożony proces zarządzania poważnymi zdarzeniami (MIM), możesz szybko reagować i rozwiązywać poważne zdarzenia. Jeśli nie, nadszedł czas na opracowanie planu reagowania na nagłe wypadki, znanego również jako proces reagowania na poważne zdarzenia.

Prawdopodobieństwo, że dojdzie do poważnego zdarzenie jest większe niż kiedykolwiek wcześniej. Zgodnie z badaniem przeprowadzonym przez organizację Information Technology Intelligence Consulting, 98% organizacji traci co najmniej 100 000 USD na godzinie przestoju. To oznacza, że opracowanie procesu MIM, który pozwoli sprawnie poradzić sobie z poważnymi zdarzeniami jest jeszcze ważniejsze.

Każda organizacja chce wyeliminować poważne zdarzenia, jednak nie da się im całkowicie zapobiec. Jedyne co można zrobić, to przygotować się na nie.

Z tego poradnika przewodnika dowiesz się jak skonfigurować odpowiedni proces MIM, poznasz częste błędy, które mogą mieć wpływ na proces MIM Twojej organizacji i najlepsze rozwiązania, pozwalające ulepszyć ten proces.

Ale najpierw należy zastanowić się, co sprawia, że zdarzenie jest poważnym zdarzeniem?

Co to jest poważne zdarzenie?

Co to jest poważne zdarzenie

Poważne zdarzenie to nagły problem o wysokim wpływie, który zazwyczaj dotyka całą organizację lub jej znaczną część. Poważne zdarzenie niemal zawsze sprawia, że usługi organizacji są niedostępne, co negatywnie wpływa na firmę i przekłada się na wyniki finansowe. Istnieją dwa sposoby, w jakie poważne zdarzenie może wpłynąć na usługi firmy:

  • Poprzez uniemożliwienie klientom uzyskania dostępu do usług organizacji. Awaria Cloudflare, do której doszło w lipcu 2019 jest przykładem sytuacji, w której klienci zostali dotknięci poważnym zdarzeniem. Ta poważna awaria dotknęła prawie połowę Internetu, przez nią miliony użytkowników Internetu nie mogło uzyskać dostępu do rozmaitych usług.
  • Poprzez zakłócanie zdolności pracowników do terminowego wykonywania obowiązków służbowych, co prowadzi do zakłóceń w działalności. Awaria IndiGo w listopadzie 2019 wpłynęła na proces odprawy na lotnisku, co doprowadziło do dużych opóźnień i dotknęło tysiące pasażerów.

Dobrze przygotowany dział obsługi może uzyskać dostęp do poważnych zdarzeń i zaproponować rozwiązania trwałe lub tymczasowe, które pozwolą ograniczyć i kontrolować wpływ poważnego zdarzenia.

Cztery etapy poważnego zdarzenia

Przyjmuje się, że poważne zdarzenia mają cztery etapy:

Cztery etapy poważnego zdarzenia

Proces zarządzanie poważnymi zdarzeniami

Organizacje muszą mieć proces MIM, który pomoże im zmniejszyć wpływ poważnych zdarzeń na firmę. Proces MIM składa się przede wszystkim z następujących etapów:

1. Identyfikacja

Identyfikacja

1. Identyfikacja

Zgłaszanie poważnego zdarzenia:

Pierwszym krokiem jest zidentyfikowanie możliwych poważnych zdarzeń. Ważne jest, aby organizacje opracowały kilka metod identyfikacji zagrożeń. Technicy mogą sygnalizować poważne zdarzenia, gdy otrzymają niecodzienny bilet. Poważne zdarzenia mogą być też wykrywane przez rozwiązania, takie jak narzędzia monitorowania sieci, które mogą automatycznie sygnalizować problem sieciowy i utworzyć bilet i wysłać działowi obsługi. Organizacje mogą również utworzyć specjalną infolinię dla personelu działu obsługi, na której mogą informować o poważnych zdarzeniach.

Informowanie interesariuszy:

Po zidentyfikowaniu poważnego zdarzenia należy poinformować o nim wszystkich kluczowych interesariuszy. Istnieją cztery główne grupy, które należy poinformować o poważnych zdarzeniach:

  • Zespół techniczny: Należy niezwłocznie poinformować zespół techniczny, aby ten mógł podjąć decyzję o sposobie rozwiązania problemu.
  • Kierownictwo: Informowanie kierownictwa wyższego szczebla, np. CIO o poważnych zdarzeniach ułatwia zachować odpowiedzialność. Organizacje powinny informować kierownictwo o wszystkich krokach podjętych w celu naprawy poważnych zdarzeń.
  • Kluczowi interesariusze: O poważnych zdarzeniach należy również informować kierowników działów oraz kadrę zarządzającą firmą na poziomie usług, trzeba im również regularnie przekazywać nowe informacje.
  • Użytkownicy: Użytkownicy muszą wiedzieć, które usługi mogą być niedostępne z powodu poważnego zdarzenia.

2. Ograniczenie

Ograniczenie

2. Ograniczenie

Kompletowanie zespołu ds. poważnych zdarzeń:

Zespół ds. poważnych zdarzeń, w skrócie MIT (Major Incident Team), składa się z techników, menedżerów ds. zarządzania na poziomie usług i innych kluczowych interesariuszy. Czasami do pomocy w walce z poważnym zdarzeniem jest angażowany wysoce wykwalifikowany zespół zewnętrzny. MIT współpracuje ze sobą, aby znaleźć rozwiązanie dla poważnego zdarzenia i przywrócić normalne działanie.

Ustawienie mostka konferencyjnego:

Mostek konferencyjny, bardziej powszechnie znany jako rozmowa konferencyjna, pomaga w skutecznym rozwiązywaniu problemów i scentralizowanej komunikacji. Jest to zrozumiały, szybki kanał komunikacji między członkami MIT.

Przygotowywanie wyznaczonego pokoju planowania:

Wszyscy członkowie zespołu MIT mogą spotkać się w wyznaczonym pokoju planowania, aby rozwiązać problemy związane ze zdarzeniem. Taki pokój poprawia współpracę zespołu MIT i pozwala szybciej znaleźć rozwiązanie.

Utworzenie biletu dotyczącego problemu, aby zidentyfikować podstawowe problemy:

Można utworzyć bilet dotyczący problemu, aby odkryć i zrozumieć główną przyczynę poważnego zdarzenia. Taki bilet może pomóc zapobiec podobnym poważnym zdarzeniom w przyszłości, rozwiązując przyczyny poważnego zdarzenia.

 

3. Rozwiązanie

Rozwiązanie

3. Rozwiązanie

Wdrożenie planu rozwiązania jako zmiany:

Wdrożenie rozwiązania poważnego zdarzenia jako zmiany jest dobrym rozwiązaniem. To pozwala odpowiednio udokumentować i zaimplementować rozwiązanie. Wdrożenie rozwiązania jako zmiany minimalizuje ryzyko, że nieskoordynowane rozwiązanie zakłóci działanie innych usług.

4. Konserwacja

Konserwacja

4. Konserwacja

Przeprowadzenie przeglądu po wdrożeniu:

Ważne jest, aby przeanalizować zdarzenie później i sprawdzić, czy zostało na pewno rozwiązane. Nierozwiązane podstawowe sprawy mogą prowadzić do kolejnego poważnego zdarzenia.

Tworzenie przejrzystej dokumentacji:

Opracowanie dokumentacji całego procesu i rozwiązania poważnego zdarzenia pomaga organizacji przygotować się na podobne sytuacje w przyszłości. Odpowiednia dokumentacja wcześniejszych zdarzeń pozwala organizacji wdrożyć wypróbowane i przetestowane rozwiązania natychmiast, gdy tylko pojawi się kolejne, podobne poważne zdarzenie, co pozwoli ograniczyć jego wpływ.

Mierzenie metryk:

Pomiar wydajności działu obsługi pomaga ocenić skuteczność działań podjętych przez ten dział i procesu MIM. Do ważnych metryk należą m.in. średni czas potrzebny na zauważenie problemu (MTTA), średni czas potrzebny na jego rozwiązanie (MTTR) oraz całkowita liczba poważnych zdarzeń i średni czas przestoju wywoływany przez takie zdarzenia.

Zaznacz wszystkie pola wydajnego procesu zarządzania poważnymi zdarzeniami

Wykres przepływu procesu zarządzania poważnymi zdarzeniami ITIL

Wykres przepływu procesu zarządzania poważnymi zdarzeniami ITIL

Role i obowiązki związane z zarządzaniem poważnymi zdarzeniami

Role i obowiązki związane z zarządzaniem poważnymi zdarzeniami

Poważne zdarzenie wymaga działania ze strony specjalnej grupy pracowników. Role MIM obejmują:

Technicy działu obsługi:

Technicy działu obsługi stoją na pierwszej linii obrony przeciwko poważnym zdarzeniom. Analizują bilety dotyczące zdarzeń i eskalują je do kierownika ds. zdarzeń. Technicy działu obsługi uczestniczą również w implementacji rozwiązań.

Kierownik ds. poważnych zdarzeń:

Kierownik ds. poważnych zdarzeń jest właścicielem poważnego zdarzenia. Jest odpowiedzialny m.in. za zgłoszenie zdarzenia jako poważne zdarzenia i sprawdzenie, czy postępowanie jest zgodne z zasadami MIM, a także czy zdarzenie zostało rozwiązane najbliższym terminie, w którym można było je rozwiązać. Jest głównym punktem kontaktu w sprawie informacji na temat poważnego zdarzenia i zarządzają MIT.

MIT:

c. MIT to wyspecjalizowany zespół, który analizuje poważne zdarzenie i przygotowuje plan akcji potrzebnych do opanowania zagrożenia. Zespół MIT powinien składać się z techników działu obsługi, personelu zarządzającego na poziomie usług, kadry techników, pozostałych właściwych interesariuszy i konsultantów zewnętrznych, jeśli są potrzebni.

Personel techniczny:

Wyspecjalizowany personel zajmuje się utrzymaniem infrastruktury i operacji. Do wyspecjalizowanego personelu zaliczają się administratorzy systemu, administratorzy sieci i kadra ds. bezpieczeństwa informacji, która należy to personelu technicznego organizacji. Kadra techniczna pomaga rozwiązać problemy związane z poważnym zdarzeniem i jest odpowiedzialna za wdrożenie jego rozwiązania.

Menedżer zmiany:

Menedżer zmiany jest właścicielem zmiany, która została utworzona w celu implementacji poprawki związanej z poważnym zdarzeniem. Menedżer zmiany bierze pełną odpowiedzialność za bilet zmiany.

Menedżer problemu:

Jeśli problem został utworzony w odpowiedzi na poważne zdarzenie, menedżer problemu jest właścicielem biletu dotyczącego problemu. Menedżer problemu stara się ustalić główną przyczynę problemu i nie dopuścić do jej powtórzenia lub co najmniej przygotować organizację na jej kolejne wystąpienie.

Konsultanci zewnętrzni i dostawcy innych firm:

W niektórych przypadkach może być potrzebna pomoc wysoko wyspecjalizowanego personelu, aby zrozumieć i rozwiązać problemy związane ze zdarzeniem. Menedżer ds. poważnych zdarzeń identyfikuje potrzebny personel i dodaje go do zespołu MIT, aby pomóc ograniczyć wpływ poważnego zdarzenia.

Matryca RACI

Matryca RACI określa obowiązki różnych poszczególnych interesariuszy w procesie. Poniższa tabela zawiera informacje o rolach i obowiązkach interesariuszy poważnego zdarzenia w ramach procesu MIM.

Procesy/role Technicy działu obsługi Menedżer ds. poważnych zdarzeń MIT Personel techniczny Menedżer zmiany Menedżer problemu Konsultanci zewnętrzni
Identyfikacja
Zgłaszanie poważnego zdarzenia K R O K I I I
Informowanie interesariuszy K R O I I I I
Ograniczenie
Zebranie zespołu MIT I O/R K K I K I
Ustawienie mostka konferencyjnego I R O K I K I
Przygotowywanie wyznaczonego pokoju planowania I R O I I K I
Utworzenie biletu dotyczącego problemu, aby zidentyfikować podstawowe problemy I R O K I I I
Rozwiązanie
Wdrożenie planu rozwiązania jako zmiany I I I O R K K
Konserwacja
Przeprowadzenie przeglądu po wdrożeniu I K I O R K I
Tworzenie przejrzystej dokumentacji K R O K K K K
Mierzenie metryk I R O I I I K

* O — osoba odpowiedzialna, R — osoba rozliczana z danego zadania, K — osoba uczestnicząca w konsultacji, I — osoba, do której są przekazywane informacje

5 najczęstszych błędów w zarządzaniu poważnymi zdarzeniami

5 najczęstszych błędów w zarządzaniu poważnymi zdarzeniami

Oto 5 typowych błędów, które mogą utrudniać proces MIM:

  1. Komunikacja i eskalacja ręczna:

    Zdecydowanie największym wyzwaniem dla MIM jest komunikacja. W przypadku poważnego zdarzenia należy poinformować rozmaitych interesariuszy o stanie zdarzenia, jego ważności i krokach podjętych w ramach rozwiązywania problemów w celu jego naprawy. Przekazywanie wiadomości ręcznie jest żmudnym zadaniem i może prowadzić do niespójnej komunikacji, co tylko pogarsza sytuację. Automatyzacja procesu pozwala poinformować interesariuszy na każdym etapie cyklu życiowego biletu, a menedżer poważnego zdarzenia może skupić całą uwagę na naprawie problemu.

  2. Nieskuteczne kanały zgłaszania poważnych zdarzeń:

    Do każdego działu obsługi codziennie wpływają dziesiątki lub setki biletów. Dotyczą rozmaitych problemów: od kłopotów z laptopem po żądania obsługi. Niektóre spośród tych setek biletów mogą dotyczyć poważnego zdarzenia. Brak oddzielnego kanału, na które są zgłaszane poważne zdarzenia, opóźnia ich identyfikację.

  3. Powielanie działań:

    Brak zorganizowanego sposobu delegowania zadań może doprowadzić do powielenia działań w ramach MIT. Przypisywanie zadań i informowanie MIT o zadaniach każdego członka jest ważne.

  4. Słaba dokumentacja:

    Brak odpowiedniej dokumentacji zmusi zespół MIT do obmyślania rozwiązania od nowa za każdym razem, gdy dojdzie do poważnego zdarzenia, co przełoży się na opóźnienie i doprowadzi do niepotrzebnego zastoju.

  5. Brak analizy głównej przyczyny:

    Działania zespołu MIM mogą być krótkowzroczne, podobnie jak działania w ramach zarządzania zdarzeniami, ponieważ głównym celem zespołu jest naprawienie problemu i przywrócenie działania usługi w najkrótszym możliwym czasie. Jeśli działania nie będą połączone z zarządzaniem problemem, który pomoże zidentyfikować podstawowe problemy, organizacja będzie wciąż narażona na poważne zdarzenia.

5 najlepszych rozwiązań zarządzania poważnymi zdarzeniami

5 najlepszych rozwiązań zarządzania poważnymi zdarzeniami

Oto najlepsze sposoby realizowania procesu MIM.

  1. Włącz wiele kanałów raportowania poważnych zdarzeń:

    Czas jest najważniejszy w kontekście radzenia sobie z poważnymi zdarzeniami. Istotne jest, aby organizacje identyfikowały i klasyfikowały poważne zdarzenia natychmiast po ich wykryciu. Oferowanie użytkownikom wielu sposobów zgłaszania zdarzeń sprawi, że cały proces będzie szybszy i lepiej dostępny. Możesz umożliwić tworzenie biletów za pośrednictwem wiadomości e-mail lub portalu internetowego, a nawet skonfigurować specjalną infolinię do zgłaszania podejrzeń poważnych zdarzeń. Konfiguracja oprogramowania monitorującego sieć w celu wykrywania anomalii może pomóc w proaktywnym reagowaniu na poważne zdarzenia.

  2. Automatyzacja procesów działu obsługi:

    Szybkość i wydajność odgrywają kluczową rolę w kontrolowaniu wpływu poważnego zdarzenia, a automatyzacja procesów działu obsługi pomaga to osiągnąć, uwalniając techników od powtarzalnych zadań, takich jak powiadamianie interesariuszy. Automatyzacja systemu powiadomień i ustawianie przepływów pracy w przypadku poważnych zdarzeń to dobre sposoby na automatyzację procesów działu obsługi, które pozwalają skrócić czas rozwiązywania problemów i ustrukturyzować proces MIM.

  3. Dążenie do szybkiej, odpowiedniej komunikacji:

    Ważne jest, aby na bieżąco informować kierownictwo organizacji i ważnych interesariuszy o każdym poważnym zdarzeniu. Informowanie kierownictwa pomoże w uzyskaniu niezbędnych zatwierdzeń i uprawnień wymaganych do naprawy poważnego zdarzenia. Szybka komunikacja sprawia, że wszyscy pracownicy zajmujący się poważnymi zdarzeniami działają w jednym zespole i umożliwia sprawną oraz efektywną współpracę. Pozwala również poinformować użytkowników końcowych o wszelkich możliwych przestojach, aby mogli się do nich przygotować.

  4. Opracuj przejrzystą dokumentację:

    Przejrzysta dokumentacja pomaga menedżerowi ds. poważnego zdarzenia zarejestrować wszystkie działania podjęte w celu naprawy poważnego zdarzenia, jego skutki, dotknięte nim usługi oraz inne kluczowe informacje o poważnym zdarzeniu. Ta dokumentacja jest ważna, aby pokazać kierownictwu korzyści płynące z procesu MIM, w tym jego ROI. Jasna dokumentacja pomoże również w przyszłości przy każdym podobnym poważnym zdarzeniu.

  5. Wykorzystaj głęboką integrację z oprogramowaniem ITOM:

    Głęboka integracja z oprogramowaniem ITOM pozwala działowi IT proaktywne reagować na poważne zdarzenia. Identyfikacja poważnych zdarzeń oparta na reakcji polega na przekazaniu biletów, aby przekazać czerwoną flagę, wskazując, że doszło do poważnego zdarzenia. Z drugiej strony, proaktywny proces MIM, w którym są wykorzystywane integracje ITOM, ma systemy do monitorowania sieci i usług oraz może automatycznie oznaczać anomalie, które mogą być potencjalnymi poważnymi zdarzeniami.

Dowiedz się, jak opracować własne, najlepsze rozwiązania w zakresie zarządzania poważnymi zdarzeniami

Metryki i KPI zarządzania poważnymi zdarzeniami

Jeśli chodzi o MIM, poniżej przedstawiamy kilka ważnych metryk i KPI do śledzenia.

KPI Formuła Komentarze
Średni czas rozwiązania (MTTR) Średni czas od momentu zgłoszenia poważnego zdarzenia do momentu jego rozwiązania. Wskazuje, jak szybko dział obsługi może rozwiązać poważne zdarzenia. Krótszy MTTR to znak, że MIT działa skutecznie i wydajnie.
Średni czas potrzebny na zauważenie problemu (MTTA) Średni czas reakcji na poważne zdarzenie. Krótszy MTTA to znak, że Twój dział obsługi szybko reaguje na poważne zdarzenia.
Średni czas między awariami (MTBF) Średni czas między awariami. Jest obliczany, dzieląc całkowity czas działania przez całkowitą liczbę awarii. Wskazuje to na wydajność infrastruktury IT. Wyższy wskaźnik MTBF jest oznaką, że Twoja infrastruktura IT działa dobrze.
Średni czas potrzebny do wykrycia (MTTD) Średni czas potrzebny do wykrycia poważnych zdarzeń lub anomalii. Mierzy, jak szybko zostanie zidentyfikowane poważne zdarzenie. Krótszy MTTD to znak, że dział obsługi szybko wykrywa poważne zdarzenia.
Procentowy wzrost lub spadek liczby poważnych zdarzeń Procentowy wzrost problemów w kolejnych miesiącach w stosunku do pierwszego miesiąca. Wskaźnik pomaga w identyfikacji trendów w występowaniu poważnych zdarzeń.

Scenariusz poważnych zdarzeń

Scenariusz poważnych zdarzeń

Ważne jest, aby pamiętać, że nie wszystkie zdarzenia o wysokim priorytecie są poważnymi zdarzeniami. Proces MIM wiąże się z dużym zaangażowaniem zasobów, takim jak wdrożenie oddzielnego MIT, w związku z czym ważne jest, aby starannie klasyfikować poważne zdarzenia.

Źródło: https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/

Awaria Cloudflare, do której doszło w 2019 r. jest bardzo dobrym przykładem tego, co definiuje poważne zdarzenie. W tym przypadku standardowa procedura operacyjna aktualizacji zarządzanej reguły dla zapory sieciowej aplikacji internetowej (WAF) spowodowała wzrost wykorzystania procesorów dedykowanych do obsługi ruchu HTTP/HTTPS do prawie 100% na serwerach w sieci Cloudflare. Spowodowany tym przestój zmniejszył ruch w chmurze Cloudflare o 80% i dotknął miliony użytkowników Internetu na całym świecie.

Wpływ: duży

Przestój spowodował, że klienci Cloudflare (i ich klienci) zobaczyli stronę błędu 502 podczas odwiedzania dowolnej domeny Cloudflare. Błędy 502 zostały wygenerowane przez serwer frontonu sieci internetowej Cloudflare, który nadal miał dostępne rdzenie procesora, ale nie był w stanie dotrzeć do procesów obsługujących ruch HTTP/HTTPS. Szacuje się, że co najmniej połowa całego Internetu była niedostępna w trakcie 27-minutowego przestoju.

Pilność: wysoka

Wszystkie strony internetowe Cloudflare były niedostępne, co powodowało zakłócenia usług dla tysięcy organizacji i milionów użytkowników. Przestój miał również wpływ na wewnętrzne działania Cloudflare, przez co pracownicy firmy nie mogli uzyskać dostępu do różnych usług, takich jak narzędzie do zarządzania zmianami w firmie i wewnętrznego panelu sterowania. Aby wrócić do normalnej pracy, konieczne było naprawienie awarii.

Oś czasu zdarzeń od wykrycia do naprawy:

Reguła zarządzana WAF została wdrożona o 13:42. Trzy minuty później narzędzia działań w sieci Cloudflare zaczęły sygnalizować spadek ruchu, wiele innych kompleksowych testów usług Cloudflare przestało działać, u użytkowników końcowych zaczęły się wyświetlać błędy 502. Do Cloudflare wpłynęło wiele raportów o wyczerpaniu zasobów CPU z miast na całym świecie.

Zespół inżynierów ds. niezawodności strony, zespół inżynierów z Londynu i inne odpowiednie zespoły rozpoczęły wspólną pracę nad rozwiązaniem problemu i wdrożeniem poprawki. O 14:00 zidentyfikowano WAF jako przyczynę zdarzenia. A o 14:07 wprowadzono globalną poprawkę WAF, aby przywrócić normalny poziom ruchu.

Do 14:52 w Cloudflare znane były wszystkie przyczyny awarii, została wdrożona poprawka, a WAF ponownie uruchomione na całym świecie.

Glosariusz

Glosariusz

Zmiana:

Dodanie, zmiana lub usunięcie wszystkiego, co może mieć bezpośredni lub pośredni wpływ na usługi.

Zarządzanie zmianami:

Proces ukończenia zmian z minimalną ilością przerw w pracy i kolizji.

Eskalacja:

Przenoszenie własności biletu na podstawie potrzeby funkcjonalnej lub hierarchicznej.

Wydarzenie:

Zdarzenie, które ma znaczenie w świetle zarządzania usługą lub składnikiem aktywów.

Błąd:

Zdarzenie, w którym usługa lub zasób nie działa zgodnie z uzgodnioną umową SLA.

Eskalacja hierarchiczna:

Przeniesienie własności w pionie do technika działu obsługi wyższego poziomu lub odpowiedniego organu.

Wpływ:

Miara ważności zdarzenia.

Zdarzenie:

Nieplanowana przerwa w świadczeniu usługi IT lub obniżenie jakości usługi IT. Awaria elementu konfiguracji, nawet jeśli nie miała jeszcze wpływu na usługę, jest również zdarzeniem (np. awaria jednego dysku z zestawu lustrzanego).

Zarządzanie zdarzeniami:

Proces zarządzania cyklem życiowym wszystkich zdarzeń w celu jak najszybszego przywrócenia normalnego działania usług i zminimalizowania skutków, z którymi boryka się firma.

Ustalanie priorytetów zdarzeń:

Przypisywanie priorytetów zdarzeniom i określanie, co stanowi poważne zdarzenie.

Poważne zdarzenie:

Zdarzenie, które ma duży wpływ i jest bardzo pilne, wymagające oddzielnego procesu od zarządzania zdarzeniem.

Kierownik ds. poważnych zdarzeń:

Osoba odpowiedzialna za MIT i implementację procesu MIM.

Średni czas potrzebny na zauważenie problemu (MTTA):

Wskazuje jak szybko dział obsługi zauważy zdarzenie.

Średni czas potrzebny do wykrycia (MTTD):

Wskazuje jak szybko jest wykrywane potencjalne zagrożenie dla usługi lub elementu konfiguracji.

Średni czas między awariami (MTBF):

Wskazuje jak często dochodzi do błędu usługi lub zasobu.

Średni czas potrzebny na naprawę/rozwiązanie/reakcję/odzyskanie sprawności (MTTR):

Wskazuje jak szybko usługa jest przywracana po awarii.

Normalne działanie usługi:

Działanie usługi zgodne z umową dotyczącą poziomu usług (umową SLA).

Problem:

Przyczyna lub potencjalna przyczyna jednego lub większej ilości zdarzeń.

Matryca RACI:

Określa on role i obowiązki w projektach oraz procesach w różnych funkcjach i działach.

Dział obsługi:

Punkt komunikacji między dostawcami usług a użytkownikami organizacji.

Menedżer działu obsługi:

Osoba, która nadzoruje codzienną działalność działu obsługi i jest odpowiedzialna za jego wyniki.

Cel poziomu usług (SLO):

Określa cel dostawców usług i pomaga mierzyć ich wydajność.

Umowa SLA:

Umowa między usługodawcą a klientem dotycząca oczekiwanego poziomu usług oraz oczekiwanego czasu ich dostarczenia.

Pilność:

Pomiar, jak szybko zdarzenie musi zostać rozwiązane.

Odkryj różne sposoby, jak ITSM może naprawdę pomóc Twojej firmie.

Po zapoznaniu się z głównymi zdarzeniami i sposobami konfiguracji procesu MIM ważne jest również wdrożenie odpowiedniego procesu zarządzania zdarzeniami, aby wyposażyć dział obsługi organizacji w narzędzia potrzebne do obsługi zarówno normalnych, jak i poważnych zdarzeń. Pobierz bezpłatną kopię naszego podręcznika zarządzania zdarzeniami oraz innymi zasobami ITSM.

  • Podręcznik zarządzania zdarzeniami

    Podręcznik zarządzania zdarzeniami

  • Podręcznik inteligentnego zarządzania ITSM

    Podręcznik inteligentnego zarządzania ITSM

  • Podręcznik bohaterów ITIL

    Podręcznik bohaterów ITIL

 
Klikając „Pobierz bezpłatne zasoby ITSM”, wyrażasz zgodę na przetwarzanie danych osobowych zgodnie z Zasadami ochrony prywatności.