Network fault management atau manajemen fault jaringan adalah proses mendeteksi, mengisolasi, dan memperbaiki masalah jaringan dengan cepat. Sebagai elemen penting dalam manajemen jaringan, manajemen fault membantu meminimalkan downtime dan mencegah kerusakan perangkat dengan penyelesaian masalah yang cepat. Hal ini memastikan jaringan tetap beroperasi secara optimal dan melindungi bisnis dari kerugian.
Monitoring fault jaringan adalah langkah pertama dalam manajemen fault, yang merupakan syarat penting untuk keberhasilan manajemen jaringan. Dengan semakin kompleksnya infrastruktur jaringan hybrid, proses manajemen fault bisa menjadi lebih berat tanpa adanya sistem fault management yang baik. Tool fault management mengikuti siklus empat langkah untuk menyelesaikan masalah:

Network fault management memastikan Anda selalu mengetahui kondisi jaringan Anda, baik saat terjadi gangguan tak terduga maupun penurunan performa. Dengan OpManager, software manajemen fault jaringan otomatis yang bekerja 24/7, Anda dapat mendeteksi, memulihkan, dan mengurangi dampak gangguan jaringan dengan mudah. Kemampuan OpManager sebagai sistem manajemen fault jaringan membantu Anda mengisolasi dan menyelesaikan masalah dalam waktu singkat menggunakan workflow empat langkah.
Software fault detection OpManager terus-menerus memantau jaringan untuk mendeteksi fault dan segera mengetahui jika terjadi penurunan performa atau gangguan layanan. Deteksi dapat dilakukan melalui pemantauan aktif dan pasif.
Fault management aktif mendeteksi kejadian dengan memeriksa status perangkat melalui ICMP ping, TCP, or UDP port checks, custom scripts, remote queries, dan lainnya. Ini adalah pendekatan aktif untuk mengidentifikasi dan memperbaiki masalah potensial secara real-time, bahkan terkadang sebelum masalah tersebut menjadi fault.
Sebaliknya, passive atau event-based management memantau jaringan untuk mendeteksi kejadian yang menunjukkan adanya gangguan atau kegagalan, tetapi hanya setelah kejadian tersebut terjadi. Hal ini dilakukan melalui SNMP traps, pesan syslog, Windows Event Log, metode lainnya.
Setelah masalah terdeteksi, mengidentifikasi akar penyebabnya sangat penting untuk mempercepat waktu penyelesaian. Tujuan utama dari proses isolasi ini adalah untuk menghilangkan peristiwa yang tidak relevan, sehingga mengurangi alarm yang tidak perlu dan hanya menampilkan fault yang dapat ditindaklanjuti. Sistem manajemen fault jaringan OpManager melakukan ini dengan bantuan tiga metode yang dibahas di bawah ini.
Jika terjadi peristiwa seperti penggunaan memori tinggi yang berlangsung selama 30 menit, tool Anda tidak seharusnya mengirim banyak peringatan dengan memeriksa setiap tiga menit. OpManager akan mencatat peristiwa yang berulang dalam riwayat alarm, menghindari duplikasi, dan mencegah pengiriman alarm ganda untuk masalah yang sama.
Device-dependencies:

Ketika router inti mengalami downtime, perangkat yang bergantung padanya juga akan terpengaruh. Jika tool fault management Anda mengirimkan alarm untuk semua perangkat tersebut, waktu untuk menemukan akar masalah akan lebih lama. Fitur device dependencies memungkinkan Anda menetapkan perangkat induk (parent) dan perangkat bergantung (dependent), sehingga mencegah munculnya alert palsu dengan hanya menghasilkan satu alarm untuk perangkat sumber saja (core router). Dengan fitur network mapping, admin dapat dengan mudah menemukan dan menyelesaikan masalah lebih cepat.
Root cause analysis (RCA):

Untuk menemukan penyebab masalah, Anda perlu membandingkan dan melihat hubungan antara kinerja beberapa monitor. Dengan profil RCA OpManager, Anda dapat drag dan drop monitor yang ingin dianalisis, lalu kurva kinerja akan dibuat untuk masing-masing. Anda bisa membandingkan hingga 20 monitor dalam satu jendela, dan grafik kinerja akan ditampilkan untuk monitor yang dipilih, membantu Anda menganalisis dan melihat korelasi kinerja beberapa monitor sekaligus.
Alarm Correlation dalam Fault Management
Anda juga bisa menggunakan aturan korelasi alarm OpManager untuk menghubungkan metrik dari entitas penting dan mendapatkan informasi kontekstual mengenai pola alarm. Dengan ini, Anda dapat mengurangi noise alarm secara signifikan dan segera mengambil langkah perbaikan pertama jika terjadi pelanggaran terhadap kriteria yang telah ditentukan.
Automation memungkinkan resolusi masalah menjadi lebih cepat dengan menghilangkan kejadian yang tidak relevan (seperti lonjakan kecil yang tidak signifikan), mengembalikan status alarm, dan menekan alarm yang sudah diketahui. OpManager menawarkan beberapa fitur automasi, termasuk:
Setelah kejadian yang dapat ditindaklanjuti diisolasi, OpManager secara otomatis memberi tahu admin NOC dengan menampilkan fault secara visual dan pemberitahuan melalui trouble ticketing dan alert melalui monitoring NOC.

Tidak semua gangguan yang terdeteksi memerlukan perhatian langsung. Dalam banyak kasus, sistem fault management, seperti OpManager secara otomatis menjalankan skrip atau workflow segera setelah tanda masalah terdeteksi, memulihkan layanan, dan menjaga jaringan tetap berjalan. Jika automasi gagal karena kendala tertentu, OpManager akan mengeskalasi alarm ke admin yang sesuai, disertai detail kejadian dan langkah tindak lanjut. Dengan begitu, meskipun Anda sedang berpindah lokasi atau sibuk menangani kebutuhan jaringan lainnya, OpManager tetap dapat mencegah sebagian gangguan agar tidak mengganggu operasional.

Dalam beberapa kasus, resolusi otomatis tidak dapat dilakukan sehingga diperlukan intervensi manual. Anda dapat melakukan troubleshooting untuk menilai kerusakan dan menemukan solusi cepat menggunakan tool troubleshooting berbasis web bawaan yang interaktif dan terintegrasi.
Dengan potensi kerugian besar akibat downtime yang dapat terjadi pada bisnis, sangat penting untuk mengambil langkah yang tepat untuk mencegah atau meminimalkannya. Menghindari downtime dan menjaga uptime bergantung pada monitoring dan manajemen fault jaringan yang efektif. Sistem manajemen fault otomatis yang canggih, seperti ManageEngine OpManager, membantu administrator menyelesaikan masalah dengan cepat, melindungi availability jaringan, dan menjaga pendapatan bisnis.