Büyük olay yönetimi: Genel bir bakış

Büyük olay yönetimi: Genel bir bakış

Pazartesi sabahı işe geldiniz ve hizmet masanızdaki her şey normal. Aniden kritik bir hizmetin çalışmadığına dair bir uyarı bileti alıyorsunuz ve 15 dakika içinde aynı sorunu bildiren bir dizi bilet geliyor. Web siteniz çökmüş, satış noktası yazılımınız çalışmayı durdurmuş olabilir ya da borsada düşüş veya uçaklarda duruş gibi daha büyük etkili bir sorun yaşanıyor olabilir. İşletmeniz gelir ve/veya itibar kaybına neden olan bir BT sorunundan ciddi oranda etkilendiğinde, büyük bir olayla karşı karşıya kalırsınız.

Büyük bir olaya nasıl tepki verdiğiniz olayın etkisinin en aza indirilmesi ve hizmetlerin yeniden çalışır duruma getirilmesi konusunda tek fark yaratan unsurdur. Söyledikleri gibi, vakit nakittir ve bu atasözü bu duruma son derece uygundur. Kuruluşunuzda bir büyük olay yönetimi (MIM) sürecini uygulamaya koyduysanız, büyük olaylara hızla müdahale edebilir ve bu olayları çözümleyebilirsiniz. Bu tür bir süreciniz yoksa, büyük olay müdahale süreci olarak da bilinen bir acil durum müdahale planı oluşturmanızın zamanı gelmiştir.

Büyük bir olayın neden olabileceği riskler artık her zamankinden daha fazladır ve Information Technology Intelligence Consulting tarafından yapılan bir çalışmaya göre, kuruluşların yüzde 98'i bir saatlik duruşta en az 100.000 $ kaybetmektedir. Bu da büyük olaylarla etkili ve verimli bir şekilde başa çıkabilecek bir MIM süreci oluşturmanın önemini göstermektedir.

Her kuruluş, büyük olayları ortadan kaldırmayı amaçlar ancak nihayetinde büyük olayların tamamen önlenmesi imkansızdır ve tek yapabileceğiniz bu olaylara karşı hazırlıklı olmaktır.

Bu rehberde, etkili bir MIM sürecinin nasıl ayarlanacağını, kuruluşunuzun MIM'ini etkileyebilecek genel hataları ve MIM sürecinizi iyileştirmek için başvurabileceğiniz en iyi uygulamaları inceleyeceğiz.

Ancak öncelikle, bir olayı büyük bir olay kılan nedir?

Büyük olay nedir?

Büyük olay nedir

Büyük bir olay, genellikle kuruluşun tamamını ya da büyük bir kısmını etkileyen yüksek etkili ve öncelikli bir sorundur. Büyük bir kaza neredeyse her zaman bir kuruluşun hizmetlerinin kullanılamaz hale gelmesiyle sonuçlanır; bu da kuruluşun işlerini ve nihayetinde de mali durumunu olumsuz etkiler. Büyük bir olay, bir kuruluşun hizmetlerini iki şekilde etkileyebilir:

  • Müşterilerin kuruluşun hizmetlerine erişmesini önleyerek. Temmuz 2019'da yaşanan Cloudflare kesintisi, müşterileri etkileyen bir büyük olay örneğidir. Bu büyük kesinti, internetin neredeyse yarısını etkilemiş ve milyonlarda internet kullanıcısının çeşitli hizmetlere erişememesine yol açmıştır.
  • Çalışanların işlerini zamanında tamamlama becerisini etkileyerek ve işlerde kesintiye yol açarak. IndiGo'nun Kasım 2019'da yaşadığı kesinti, hava yolu şirketinin check-in sürecini etkilemiş bu da binlerce yolcu üzerinde etki yaratmıştır.

Hazırlıklı bir hizmet masası, büyük olayları değerlendirmek ve büyük olayların etkisini azaltmak ve kontrol etmek üzere kalıcı ya da geçici çözümler bulmak için gerekli donanıma sahiptir.

Büyük bir olayın dört aşaması

Büyük olayların dört aşaması olduğu kabul edilir, bunlar aşağıda listelenmiştir:

Büyük bir olayın dört aşaması

Büyük olay yönetimi süreci

MIM süreçleri büyük bir olayın iş üzerindeki etkisini en aza indirmeye yardımcı olduklarından kuruluşların olmazsa olmazdır. MIM süreci, temel olarak aşağıdaki adımlardan oluşur:

1. Tanımlama

Tanımlama

1. Tanımlama

Büyük olayın ilanı:

Birinci adım, olası büyük olayların tanımlanmasıdır. Kuruluşların tehditleri tanımlamak için birden fazla yöntem belirlemesi önemlidir. Büyük olaylar, olağan dışı biletlerle karşılaşan teknisyenler tarafından işaretlenebilir veya bir ağ sorununu otomatik olarak işaretleyerek hizmet masasını uyarmak üzere bir bilet oluşturan ağ izleme araçları gibi çözümler tarafından algılanabilir. Kuruluşlar, aynı zamanda büyük olay şüphelerini işaretlemek üzere hizmet masası personeli için özel bir telefon hattı ayarlayabilir.

Paydaşların bilgilendirilmesi:

Büyük bir olay tanımlandıktan sonra tüm temel paydaşlara iletilmelidir. Büyük olaylarda bilgilendirilmesi gereken dört ana grup bulunur:

  • Teknik ekip: Sorun için izlenecek yola karar vermeye başlamaları için teknik ekibin hemen bilgilendirilmesi önemlidir.
  • Yönetim: CIO gibi üst yönetim taraflarının büyük olaylar konusunda bilgilendirilmesi hesap verebilirlik açısından fayda sağlar. Kuruluşlar, ayrıca, yönetimi büyük olayların düzeltilmesi için atılan tüm adımlar hakkında bilgilendirmelidir.
  • Temel paydaşlar: Departman sorumluları ve hizmet seviyesi işletme yönetiminin de büyük olaylar konusunda bilgilendirilmesi ve düzenli olarak durum güncellemeleri alması gerekmektedir.
  • Kullanıcılar: Kullanıcıların büyük olay nedeniyle hangi hizmetlerin kullanılamaz hale gelebileceğini bilmesi gerekmektedir.

2. Kontrol Altına Alma

Kontrol Altına Alma

2. Kontrol Altına Alma

Büyük olay ekibinin oluşturulması:

Bir büyük olay ekibi (kısaca MIT), teknisyenler, hizmet seviyesinde yönetim sorumluları ve diğer temel paydaşlardan oluşur; bazı durumlarda, yüksek vasıflı harici personel de büyük bir olayla mücadele etmek üzere ekibe katılabilir. MIT, büyük olay için bir çözüm bulmak ve operasyonları tekrar normale döndürmek üzere birlikte çalışır.

Bir konferans köprüsünün oluşturulması:

Daha yaygın olarak görüntülü konuşma olarak bilinen konferans köprüleri etkili sorun giderme ve merkezi iletişim konusunda destek olur. MIT üyeleri arasında net ve hızlı bir iletişim kanalı olarak görev görür.

Özel bir savaş odası hazırlanması:

Özel bir savaş odasının hazır bulundurulması, MIT'in tüm üyelerinin bir araya gelerek olayla ilgili sorun giderme eylemlerini gerçekleştirmesine olanak tanır. Bu, iş birliği ile ilgili çalışmaları artırır ve MIT'in daha hızlı bir şekilde çözüm bulmasına yardımcı olur.

Altta yatan sorunların tanımlanması için bir sorun bileti oluşturulması:

Büyük olayın temel nedeninin anlaşılması için bir sorun bileti oluşturulabilir. Bu, büyük olayın nedenlerini ele alarak gelecekte benzer büyük olayların yaşanmasını önleyebilir.

3. Çözme

Çözme

3. Çözme

Çözüm planının bir değişiklik olarak uygulanması

Çözümün doğru şekilde belgelendirilmesini ve uygulanmasını sağlamak için büyük olayın düzeltmesinin bir değişiklik olarak uygulanması iyi bir uygulamadır. Çözümün bir değişiklik olarak uygulanması, kusurlu bir çözümün diğer hizmetleri kesintiye uğratma riskini en aza indirir.

4. Bakım

Bakım

4. Bakım

Uygulama sonrası gözden geçirmenin gerçekleştirilmesi:

Gerçekten çözümlendiğinden emin olmak için bir olayın zaman içerisindeki durumunun değerlendirilmesi önemlidir. Altta kalan sorunların çözümlenmeden bırakılması halinde, bunlar başka bir büyük olaya yol açabilir.

Net belgelendirme yapılması:

Büyük olayın çözümlenme sürecinin tamamıyla belgelendirilmesi, kuruluşun gelecekte benzer olaylara karşı hazırlıklı olmasına yardımcı olur. Kuruluş, geçmiş olayların uygun şekilde belgelendirilmesiyle, benzer bir büyük olayla karşılaştığında denenmiş ve başarısı test edilmiş çözümü hemen uygulayarak etkisini azaltabilir.

Ölçümlerin ele alınması:

Hizmet masasının performansının ölçülmesi, hizmet masasının ve MIM sürecinin etkililiğinin ölçülmesine yardımcı olur. Ölçülecek bazı önemli ölçümler, ortalama teyit zamanı (MTTA), ortalama çözümleme zamanı (MTTR), toplam büyük olay sayısı ve büyük olaylar için ortalama duruş süresidir.

Etkili bir büyük olay yönetim süreci için tüm kutuları işaretleyin

ITIL büyük olay yönetim süreci akış çizelgesi

ITIL büyük olay yönetim süreci akış çizelgesi

Büyük olay yönetimi rolleri ve sorumlulukları

Büyük olay yönetimi rolleri ve sorumlulukları

Büyük bir olay, olayla başa çıkılması ve olayın çözümlenmesi için özel bir grup personelin devreye girmesini gerektirir. MIM rolleri aşağıdakileri içerir:

Hizmet masası teknisyenleri

Hizmet masası teknisyenleri, büyük olaylara karşı ilk savunma hattınızdır. Bu kişiler olay biletlerini analiz eder ve olay yöneticisine iletir. Hizmet masası teknisyenleri de çözümlerin uygulanma sürecine dahildir.

Büyük olay yöneticisi

Büyük olay yöneticisi, büyük olayın sahibidir. Rolleri, olayın büyük bir olay olarak ilan edilmesi ve MIM sürecinin izlendiğinden ve olayın en erken aşamada çözümlendiğinden emin olunmasıdır. Bu kişiler, büyük olay ile ilgili herhangi bir bilgi konusunda ana irtibat noktasıdır.

MIT

MIT, büyük olayın analiz edilmesi ve tehdidin ele alınması için bir eylem planı oluşturulmasından sorumlu olan uzman bir ekiptir. MIT, ideal olarak hizmet masası teknisyenleri, hizmet seviyesi yönetim personeli, teknik personel, diğer ilgili paydaşlar ve durumun gerektirmesi halinde diğer harici danışmanlardan oluşur.

Teknik personel

Altyapı ve operasyonların bakımından sorumlu olan ve sistem yöneticileri, ağ yöneticileri ve bilgi güvenliği personelini içeren, kuruluşun teknik ekibini oluşturan uzman personeldir. Teknik personel, büyük olayda sorun giderme faaliyetlerinin yapılmasına yardımcı olur ve büyük olayın çözümünün uygulanmasında birincil sorumluluğa sahiptir.

Değişiklik yöneticisi

Değişiklik yöneticisi, büyük olay için düzeltmenin uygulanması amacıyla oluşturulmuş değişikliğin sahibidir. Değişiklik yöneticisi, değişiklik biletinin sahipliğini ve sorumluluğunu üstlenir.

Sorun yöneticisi

Büyük olaya yanıt olarak bir sorunun oluşturulması halinde, sorun yöneticisi sorun biletinin sahibi olacaktır. Sorun yöneticisi, olayın temel nedenlerini belirlemeye ve bu olayın tekrar yaşanmamasını ya da en azından kuruluşun olay tekrar yaşandığında hazırlıklı olmasını sağlamaya çalışır.

Harici danışmanlar veya üçüncü taraf sağlayıcılar

Bazı durumlarda, büyük olay olayın anlaşılması ve olayla ilgili sorun giderme faaliyetlerinin yürütülmesi için uzmanlığı yüksek personelin çalışmasını gerektirebilir. Büyük olay yöneticisi, gerekli personeli tanımlar ve büyük olayın etkisinin azaltılmasına yardımcı olmak için bunları MIT'e ekler.

RACI matrisi

Bir RACI matrisi, süreçteki çeşitli paydaşların sorumluluklarını tanımlar. Aşağıdaki tabloda, büyük olay paydaşlarının MIM süreci genelindeki rol ve sorumlulukları tanımlanmaktadır.

Süreç/roller Hizmet masası teknisyenleri Büyük olay yöneticisi MIT Teknik personel Değişiklik yöneticisi Sorun yöneticisi Harici danışmanlar
Tanımlama
Büyük olayın ilanı C A R C I I I
Paydaşların bilgilendirilmesi C A R I I I I
Kontrol Altına Alma
MIT'in Oluşturulması I R/A C C I C I
Bir konferans köprüsünün oluşturulması I A R C I C I
Özel bir savaş odası hazırlanması I A R I I C I
Altta yatan sorunların tanımlanması için bir sorun bileti oluşturulması I A R C I I I
Çözüm
Çözüm planının bir değişiklik olarak uygulanması I I I R A C C
Bakım
Uygulama sonrası gözden geçirmenin gerçekleştirilmesi I C I R A C I
Net belgelendirme yapılması C A R C C C C
Ölçümlerin ele alınması I A R I I I C

* R - Sorumlu, A - Hesap Verebilir, C - Danışılan, I - Bilgilendirilen

Büyük olay yönetiminde sıklıkla yapılan 5 hata

Büyük olay yönetiminde sıklıkla yapılan 5 hata

Burada, MIM sürecinizi olumsuz etkileyebilecek 5 yaygın hata listelenmektedir:

  1. Manuel iletişim ve üst seviyeye aktarma

    Bugüne kadar MIM'deki en büyük zorluk, iletişim olmuştur. Büyük bir olay durumunda, çeşitli paydaşların olayın durumu, şiddeti ve düzeltmek üzere hangi sorun giderme faaliyetlerinin gerçekleştirileceği konusunda bilgilendirilmesi gerekmektedir. Tüm bunların iletişiminin manuel olarak sağlanması zahmetli bir görevdir ve tutarsız iletişime neden olabilir bu da durumu daha da kötüleştirmekten başka bir işe yaramaz. Sürecin otomatik hale getirilmesiyle temel paydaşlar bilet yaşam döngüsü boyunca bilgilendirilir ve büyük olay yöneticisi tamamen sorunun düzeltilmesine odaklanabilir.

  2. Büyük olayların bildirilmesinde etkisiz kanalların kullanılması:

    Her hizmet masası, günce onlarca ve hatta yüzlerce bilet alır; bunlar dizüstü sorunlarından hizmet isteklerine kadar bir aralıkta görülebilir; bu biletler arasında birkaç olası büyük olayın bulunması mümkündür. Büyük olayların bildirilmesi için ayrı bir kanalın oluşturulmaması, büyük olayların tanımlanmasını geciktirir.

  3. Aynı çalışmanın birden fazla kişi tarafından yapılması

    Görevlerin düzenli bir biçimde devredilememesi, aynı çalışmanın MIT dahilindeki birden fazla kişi tarafından yapılmasına neden olabilir. Görevlerin atanması ve MIT'in her bir üyeye hangi görevin verildiği konusunda bilgilendirilmesi önemlidir.

  4. Kötü belgelendirme:

    Uygun belgelendirme eksikliği, MIT'i benzer bir büyük olay her yaşandığında tekerleği yeniden keşfetmeye zorlar; bu da büyük olayların çözümlenmesinde gecikmelere yol açarak gereksiz duruş süreleriyle sonuçlanır.

  5. Temel nedenin analiz edilememesi:

    Olay yönetimine benzer şekilde, MIM de dar kapsamlı olabilir; bunun nedeni, birincil odağının sorunu düzeltmek ve hizmetleri mümkün olan en kısa süre içinde çalışır ve kullanılabilir hale getirmek olmasıdır. Altta yatan sorunların tanımlanması için sorun yönetimi ile birlikte kullanılmaması halinde, büyük bir olayın altında yatan neden kuruluşun büyük olaylara karşı savunmasız kalmasına neden olabilir.

Büyük olay Yönetimi ile ilgili 5 En İyi Uygulama

Büyük olay Yönetimi ile ilgili 5 En İyi Uygulama

Burada, MIM sürecine yaklaşmanın en iyi yolları açıklanmaktadır.

  1. Büyük olayların bildirilmesinde birden fazla kanalın kullanılması

    Konu büyük olayları ele almak olduğunda, zaman kritik önem taşır. Kuruluşların büyük olayları algılandıkları anda tanımlaması ve sınıflandırması hayati önem taşır. Kullanıcılara olayların bildirilmesi için birden fazla yol sunulması, sürecin tamamını çok daha hızlı ve erişilebilir hale getirecektir. Bir e-posta veya web portalı aralığıyla bilet oluşturmayı etkinleştirebilir ya da büyük olay şüphelerini bildirmek için özel bir hat kurabilirsiniz. Anomalilerin algılanması için ağ izleme yazılımının ayarlanması, büyük olayları proaktif bir şekilde ele almanıza yardımcı olabilir.

  2. Hizmet masası süreçlerini otomatik hale getirin

    Hız ve etkililik, büyük bir olayın etkisinin kontrol altına alınmasında hayati önem taşır ve çeşitli hizmet masası süreçlerinin otomatik hale getirilmesi, paydaşları bilgilendirmek gibi yinelenen görevleri yapma sorumluluğunu teknisyenlerinizin omuzlarından alarak bunun sağlanmasına yardımcı olur. Bildirim sisteminin otomatik hale getirilmesi ve büyük olay iş akışlarının oluşturulması, çözüm süresinin iyileştirilmesi ve MIM sürecinizin yapılandırılması açısından hizmet masası süreçlerinin otomatik hale getirilmesi için iyi yöntemlerdir.

  3. Anlık ve ilgili iletişim için çabalayın

    Kuruluşunuzun yönetiminin ve önemli paydaşların her bir büyük olay konusunda bilgilendirilmesi önemlidir. Yönetime güncel olarak bilgi verilmesi, büyük olayın düzeltilmesi için gerekli onay ve izinlerin alınmasına yardımcı olacaktır. Anlık iletişim, tüm büyük olay personelinin aynı sayfada olmasını sağlar ve sorunsuz ve etkili bir iş birliği yapılmasına olanak tanır; aynı zamanda, son kullanıcıları olası duruş süreleri konusunda bilgilendirerek bu duruma hazırlıklı olmalarını sağlar.

  4. Net belgeler oluşturun

    Net belgelendirme, büyük olay yöneticisinin büyük olayı düzeltmek için yapılan tüm çalışmaları, olayın etkisini, etkilenen hizmetleri ve büyük olay hakkındaki diğer tüm temel bilgileri kayıt altına almasına olanak tanır. Bu belgelendirme, yatırım getirisi dahil olmak üzere bir MIM sürecine sahip olunmasının faydalarını yönetime göstermek açısından da önemlidir. Net belgelendirme, aynı zamanda gelecekte yaşanabilecek benzer büyük olaylar konusunda size yardımcı olacaktır.

  5. ITOM yazılımı ile derin entegrasyonlardan faydalanın

    ITOM yazılımı ile güçlü entegrasyonlar, BT departmanının büyük olayları proaktif bir biçimde ele alabilmesini mümkün kılar. Reaktif büyük olay tanımlaması, büyük olayın ilerleyişine dair bir tehlike işareti oluşturmak üzere biletlerin iletilmesine dayanır. Bir diğer yandan, ITOM entegrasyonlarını kullanan ve büyük olaylarla sonuçlanabilecek anomalileri otomatik olarak işaretleyebilen proaktif bir MIM sürecinde ağ ve hizmetleri izleyen sistemler bulunur.

Büyük olay yönetimi ile ilgili kendi en iyi uygulamalarınızı nasıl oluşturacağınızı öğrenin

Büyük olay yönetimi ölçümleri ve KPI'lar

Konu MIM olduğunda, takip edilmesi gereken bazı önemli ölçümler ve KPI'lar aşağıda listelenmiştir.

KPI Formül Yorumlar
Ortalama çözümleme zamanı (MTTR) Büyük bir olayın bildirilmesinden çözümlenmesine kadar geçen ortalama süre. Bu, hizmet masanızın büyük olayları ne kadar hızlı bir şekilde çözebildiğini gösterir. Daha düşük bir MTTR değeri, MIT'inizin etkili ve verimli olduğuna işaret eder.
Ortalama teyit zamanı (MTTA) Bir olaya müdahale edilmesi için geçen ortalama süre. Düşük bir MTTA değeri, hizmet masanızın büyük olaylara hızlı bir şekilde müdahale ettiğini gösterir.
Arızalar arası ortalama süre (MTBF) Arızalar arası ortalama süredir. Toplam çalışma süresinin toplam arıza sayısına bölünmesiyle hesaplanır. Bu, BT altyapınızın performansını gösterir. Yüksek bir MTBF değeri, BT altyapınızın iyi performans gösterdiğine işaret eder.
Ortalama algılama zamanı (MTTD) Büyük olayların veya anomalilerin algılanması için geçen ortalama süre. Bu, büyük bir olayın ne hızla tespit edildiğini ölçer. Düşük bir MTTD değeri, hizmet masanızın büyük olayları hızlı bir şekilde tespit ettiğini gösterir.
Büyük olayların yüzde olarak artışı veya düşüşü Gelecek aylarda ilk aya göre sorunların yüzdesindeki artış ölçülür. Bu, büyük olayların yaşanmasındaki eğilimleri tanımlamanıza yardımcı olur.

Büyük olay senaryosu

Büyük olay senaryosu

Tüm önceliği yüksek olayların büyük olay olmadığının bilincinde olmanız önemlidir. MIM süreci ayrı bir MIT oluşturulması gibi kayda değer bir bağlılık gerektirdiğinden, büyük olayların dikkatlice sınıflandırılması önemlidir.

Kaynak: https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/

2019'da yaşanan Cloudflare kesintisi, büyük bir olayı tanımlayan unsurlara dair iyi bir örnektir. Bu durumda, web uygulaması güvenlik duvarı (WAF) için yönetilen bir kuralın güncellenmesi için standart bir işletim prosedürü, Cloudflare'in ağındaki sunucuların yaklaşık olarak %100'üne HTTP/HTTPS trafik akışını sağlayan CPU'ların kullanımında ani bir artışa neden olmuştur. Bunun sonrasında yaşanan kesinti, Cloudflare'in trafiğinde yüzde 80'lik bir düşüşe neden olmuş ve bu durum dünyanın dört bir yanındaki milyonlarca internet kullanıcısını etkilemiştir.

Etki: Büyük

Kesinti, Cloudflare müşterilerinin (ve bu müşterilerin müşterilerinin) herhangi bir Cloudflare etki alanını ziyaret ederken bir 502 hata sayfasıyla karşılaşmasına neden olmuştur. 502 hataları, hala kullanılabilir CPU çekirdekleri olan ancak HTTP/HTTPS trafiğine hizmet veren süreçlere ulaşamayan ön uç Cloudflare web sunucuları tarafından oluşturulmuştur. Yirmi yedi dakikalık duruş süresi boyunca internetin yarısından tamamına erişilemediği tahmin edilmektedir.

Öncelik: Yüksek

Tüm Cloudflare web siteleri erişilemeyecek duruma geldi ve bu da binlerce kuruluş ve milyonlarca kullanıcıya sunulan hizmetlerde kesintilere neden oldu. Kesinti, Cloudflare'in dahili operasyonlarını da etkiledi ve Cloudflare çalışanlarının şirketin değişiklik yönetimi aracı ve dahili kontrol paneli gibi çeşitli hizmetlere erişmesini önledi. Normal hizmet operasyonlarının sürdürülmesi için kesintiyle ilgilenilmesi gerekmekteydi.

Algılama sürecinden çözümleme sürecine kadar geçen olaylar için zaman çizelgesi:

WAF yönetimli kural, 13:42'de uygulandı; üç dakika sonra, Cloudflare'in ağ operasyonu araçları trafikteki düşüşe işaret etmeye başladı, diğer birçok uçtan uca Cloudflare hizmeti testi başarısız sonuç vermeye başladı, son kullanıcılar çeşitli 502 hataları ile karşılaştı ve Cloudflare, dünyanın dört bir yanındaki birçok şehirde CPU'nun tükendiğine dair bildirimler aldı.

Sitenin güvenilirlik mühendisliği ekibi, Londra'daki mühendislik ekibi ve diğer ilgili ekipler, sorun giderme işlemlerini yapmak ve bir çözüm bulmak üzere bir araya geldi. Saat 14:00'da, WAF, olayın nedeni olarak tanımlandı. Ve saat 14:07'de, trafik seviyelerini normale çekmek için bir WAF etkisizleştirme çözümü uygulandı.

14:52'de Cloudflare, kesintinin nedenini anladığından ve bir düzeltme uyguladığından %100 oranda emin oldu ve WAF küresel ortamda yeniden etkinleştirildi.

Sözlük

Sözlük

Değişiklik

Hizmetler üzerinde doğrudan ya da dolaylı etki yaratabilecek herhangi bir şeyin eklenmesi, değiştirilmesi veya kaldırılması.

Değişiklik yönetimi

Değişikliklerin asgari düzeyde sıkıntı ve çakışma ile tamamlanma süreci.

Üst Seviyeye Aktarma

Bir biletin sahipliğinin bir işlev veya hiyerarşik ihtiyaca dayalı olarak aktarılma eylemi.

Olay

Bir hizmetin veya varlığın yönetimi için önemli olan bir durum.

Hata

Bir hizmet veya varlığın mutabakat sağlanan SLA'ya göre işlev göstermediği bir durum.

Hiyerarşik üst seviyeye aktarma

Sahipliğin dikey olarak daha yüksek kademedeki bir hizmet masası teknisyenine ya da ilgili bir yetkiliye aktarılması.

Etki

Bir olayın şiddet ölçümü.

Olay

BT hizmetinde planlanmamış bir kesinti veya bir BT hizmetinin kalitesinde azalış. Henüz bir hizmeti etkilememiş olsa bile bir yapılandırma öğesindeki başarısızlık da bir olaydır (ör. bir ayna setten bir diskteki arıza).

Olay yönetimi

Mümkün olan en kısa sürede normal hizmet operasyonlarını yeniden sağlamak ve bunların işletmeye etkisini minimum indirmek için tüm olayların yaşam döngüsünü yönetme süreci.

Olay önceliklendirilmesi

Olaylara önceliklerin atanması ve büyük bir olayı neyin oluşturduğunun tanımlanması.

Büyük olay

Yüksek etkisi ve önceliği bulunan, olay yönetiminden ayrı bir süreç gerektiren bir olaydır.

Büyük olay yöneticisi

MIT'ten ve MIM sürecinin uygulanmasından sorumlu olan kişi.

Ortalama teyit zamanı (MTTA)

Bir olayın hizmet masası tarafından ne kadar hızlı bir şekilde teyit edildiğini gösteren bir ölçüm.

Ortalama algılama zamanı (MTTD)

Hizmete ya da yapılandırma öğesine yönelik bir olası tehlikenin ne kadar hızlı algılandığını gösteren bir ölçüm.

Arızalar arası ortalama süre (MTBF)

Bir hizmet veya varlığın ne sıklıkla arızalandığını gösteren bir ölçüm.

Onarım/çözümleme/müdahale/kurtarma için ortalama süre (MTTR)

Bir hizmetin arıza sonrasında ne kadar hızlı bir şekilde eski haline döndürüldüğünü gösteren bir ölçüm.

Normal hizmet işlemi

Hizmet seviyesi anlaşmasına (SLA) uygun bir hizmet işlemi.

Sorun

Bir veya daha fazla olayın nedeni veya olası nedeni.

RACI matrisi

İşlevler veya departmanlar arası projeler ve süreçlerdeki rol ve sorumlulukları tanımlar.

Hizmet masası

Hizmet sağlayıcıları ve kuruluşun kullanıcıları arasındaki iletişim noktası.

Hizmet masası yöneticisi

Hizmet masasının gündelik faaliyetlerini denetleyen ve performansından sorumlu olan kişi.

Hizmet Seviyesi Hedefi (SLO)

Hizmet sağlayıcılarının hedefini tanımlar ve bir performans ölçümü aracıdır.

SLA

Hizmet sağlayıcı ve müşteri arasında imzalanan, beklenen hizmet düzeyi ile hizmetin sunulması beklenen zaman hakkındaki bir anlaşma.

Öncelik

Bir olayın ne kadar hızlı bir şekilde çözümlenmesi gerektiğini ifade eden bir ölçüm.

ITSM'nin iş operasyonlarınızı gerçek anlamda nasıl destekleyebileceğinin farklı yollarını keşfedin.

Artık büyük olaylar ve MIM sürecinizin kurulumunu nasıl yapacağınıza dair genel bilgilere sahip olduğunuza göre, kuruluşunuzun hizmet masasının hem normal hem de büyük olayları ele almak üzere gerekli donanıma sahip olması amacıyla sağlam bir olay yönetimi sürecini uygulamanız önemlidir. Olay yönetimi el kitabımızın ve diğer ITSM kaynaklarımızın ücretsiz bir kopyasını indirebilirsiniz.

  • Olay yönetimi el kitabı

    Olay yönetimi el kitabı

  • Daha Akıllı bir ITSM için Akıl Rehberi

    Daha Akıllı bir ITSM için Akıl Rehberi

  • ITIL kahramanları el kitabı

    ITIL kahramanları el kitabı

 
Ücretsiz ITSM kaynaklarını edin” öğesine tıklayarak, kişisel verilerin Gizlilik İlkesine göre işlenmesini kabul edersiniz.