Đừng chỉ phụ thuộc vào cảnh báo: Đã đến lúc cần causal intelligence

causal-intelligence-la-gi

Hãy tưởng tượng tình huống sau: Kỹ sư trực hệ thống (on-call engineer) của bạn truy cập vào công cụ giám sát mạng lúc 2 giờ sáng. Dashboard đỏ rực với 847 alert. CPU trên node prod-k8s-07 tăng đột biến, API thanh toán xuất hiện độ trễ cao. Connection pool của cơ sở dữ liệu đã cạn kiệt. Tỷ lệ lỗi liên tục tăng.

Mọi dấu hiệu đều cho thấy hệ thống đang gặp sự cố nghiêm trọng và các vấn đề dường như có liên quan đến nhau. Tuy nhiên, không có công cụ nào thực sự giải thích được nguyên nhân “vì sao” sự cố này xảy ra.

Đó chính là thực trạng của ITOps hiện đại: Doanh nghiệp đã đầu tư mạnh vào các nền tảng giám sát có khả năng phát hiện sự cố rất tốt, nhưng lại thiếu công cụ giúp xác định nguyên nhân thực sự phía sau các vấn đề này. Khoảng cách giữa khả năng quan sát và khả năng phân tích nguyên nhân khiến downtime kéo dài, đội ngũ IT dễ rơi vào tình trạng quá tải, và MTTR thường được tính bằng giờ thay vì chỉ vài phút.

Hãy cùng tìm hiểu về causal intelligence (có thể hiểu đơn giản là "tính năng suy luận theo cơ chế nguyên nhân - kết quả"). Đây được xem là một trong những bước tiến quan trọng nhất của AIOps kể từ khi machine learning bắt đầu được tích hợp vào các công cụ ITOps.

Causal intelligence là gì và hoạt động như thế nào?

Causal intelligence là việc áp dụng tư duy suy luận nguyên nhân - kết quả (causal inference), được phát triển dựa trên các nghiên cứu của Judea Pearl và James Heckman—vào các hệ thống suy luận tự động. Về bản chất, đây là sự khác biệt giữa một hệ thống chỉ có thể nói: “Hai sự việc này thường xảy ra cùng nhau” và một hệ thống có khả năng giải thích: “Điều gì đã khiến những sự việc này xảy ra cùng nhau.”

Với các hệ thống giám sát dựa trên ML truyền thống, thuật toán thường làm rất tốt việc nhận diện pattern (mẫu hành vi). Ví dụ, hệ thống có thể nhận ra rằng: cứ mỗi khi CDN latency tăng thì tỷ lệ chuyển đổi (conversion rate) ở bước thanh toán lại giảm. Đây là một insight hữu ích, nhưng chưa thực sự giúp giảm MTTR.

Causal intelligence tiến xa hơn thế: causal intelligence xây dựng một mô hình cấu trúc (structural model) của toàn bộ hệ thống, giúp xác định vì sao độ trễ CDN tăng lên ngay từ đầu và những biện pháp can thiệp nào thực sự có thể giải quyết vấn đề.

Ba tầng suy luận trong causal intelligence

Mô hình Ladder of Causation của Judea Pearl cung cấp một framework rõ ràng để hiểu phần lớn các công cụ IT hiện nay đang hoạt động ở đâu—và causal intelligence đưa chúng ta tiến xa hơn như thế nào:

TẦNG 1: ASSOCIATION

Quan sát và tương quan

“Mức sử dụng CPU và tỷ lệ lỗi thường tăng cùng lúc.”

Đây là cấp độ mà dashboard, công cụ APM và phần lớn các hệ thống phát hiện bất thường đang hoạt động. Các công cụ này rất hiệu quả trong việc tạo cảnh báo nhưng lại chưa thực sự giải thích được nguyên nhân của vấn đề.

TẦNG 2: INTERVENTION

Do-calculus và kiểm thử chủ động

“Điều gì sẽ xảy ra nếu tôi restart pod này?”

Đây là lĩnh vực của chaos engineering và A/B testing. Causal AI sử dụng do-calculus để suy luận về tác động của các hành động can thiệp mà không phải lúc nào cũng cần thực thi trong thực tế.

TẦNG 3: COUNTERFACTUAL

Phân tích nguyên nhân gốc rễ và suy luận “điều gì sẽ xảy ra nếu”

“Liệu sự cố này có xảy ra nếu chúng ta không triển khai phiên bản v2.3.1 vào lúc 14:47 không?”

Đây là tầng cao nhất. Ở cấp độ này, causal intelligence cho phép thực hiện các postmortem thực sự hiệu quả, dự đoán blast radius và chủ động điều chỉnh hệ thống để ngăn ngừa sự cố trong tương lai.

Cách causal graph mô hình hóa hạ tầng của bạn

Nền tảng kỹ thuật cốt lõi của causal intelligence là một cấu trúc dữ liệu gọi là directed acyclic graph (DAG), hay còn được gọi là causal graph. Bạn có thể hình dung đây là một “bản đồ sống” của toàn bộ hệ thống, trong đó:

  • các node đại diện cho dịch vụ/chỉ số/sự kiện
  • còn các edge thể hiện mối quan hệ nguyên nhân - nhân quả cùng hướng tác động và mức độ ảnh hưởng giữa chúng

Graph này được hình thành từ 3 nguồn dữ liệu đầu vào:

  • domain knowledge (sự am hiểu kiến trúc hệ thống của các kỹ sư)
  • dữ liệu quan sát (telemetry, log và trace)
  • cùng các thuật toán causal discovery (như PC, FCI, hay NOTEARS) giúp suy luận thống kê về cấu trúc nguyên nhân-kết quả từ dữ liệu chuỗi thời gian (time-series data)

Khi đã xây dựng được causal graph này, quá trình phân tích root cause sẽ chuyển từ việc "bới lông tìm vết" trong log thành một bài toán duyệt đồ thị (graph traversal). Khi một cơn bão alert ập tới, causal engine sẽ lần ngược theo DAG — đi từ các dấu hiệu bên ngoài về tận node gốc rễ (ancestor node) sớm nhất. Và đó chính là điểm mấu chốt bạn cần can thiệp để xử lý sự cố.

Causal intelligence mang lại lợi thế gì cho đội ngũ SRE?

Một khi công cụ monitor của bạn đã xây dựng được mô hình causal, bạn hoàn toàn có thể đặt ra những câu hỏi mà chỉ có thể trả lời bằng quá trình phân tích thủ công tốn rất nhiều thời gian.

"Một ví dụ thực tế: Đội ngũ của bạn đang cân nhắc đổi cấu hình để tăng database connection pool từ 100 lên 300.

Công cụ observability truyền thống sẽ chỉ báo: ""Pool utilization hiện tại đang ở mức 94%"".

Nhưng mô hình causal intelligence sẽ phân tích sâu hơn: "Dựa trên cấu trúc nhân quả của hệ thống, thay đổi này có thể giúp giảm 67% khả năng xảy ra sự cố - nhưng sẽ không giải quyết nguyên nhân gốc rễ, vốn nằm ở thời gian xử lý truy vấn (query time)."

Cần chuẩn bị gì để bắt đầu với causal intelligence?

Việc tích hợp causal intelligence vào quy trình vận hành ITOps không đơn giản chỉ là mua một sản phẩm mới. Trên thực tế, doanh nghiệp cần chuẩn bị một nền tảng phù hợp để causal intelligence có thể hoạt động hiệu quả.

1. Dữ liệu giám sát (telemetry) chất lượng cao

Các thuật toán causal discovery cần dữ liệu chuỗi thời gian (time-series data) phong phú và nhất quán. Nếu hệ thống observability của bạn đang thiếu span, làm mất log hoặc sử dụng timestamp không đồng nhất, hãy xử lý những vấn đề đó trước tiên. OpenTelemetry chính là nền tảng quan trọng để bắt đầu.

2. Lớp dữ liệu hợp nhất (Unified data layer)

Dữ liệu phân mảnh chính là "kẻ thù" của causal modeling. Toàn bộ metric, log, trace, dữ liệu topology và deployment event cần được tập trung và có khả năng liên kết với nhau trong cùng một nền tảng.

3. Khả năng causal discovery và causal inference

Lớp causal này cho phép bạn chạy các thuật toán causal discovery (thuật toán tự động tìm ra mối quan hệ nguyên nhân — kết quả) ngay trên dòng dữ liệu telemetry (dữ liệu giám sát hệ thống), từ đó dựng nên DAG — tấm bản đồ nhân quả của toàn bộ hạ tầng. Có thể ví DAG như "nhiên liệu cao cấp" nạp vào động cơ trí tuệ (intelligence layer) của hệ thống.

4. Xác thực bởi con người (Human-in-the-loop)

Causal graph cần được bổ sung kiến thức chuyên môn thực tế để đạt độ chính xác cao. Các cơ chế khám phá tự động thường chỉ hoàn thiện khoảng 70–80% mô hình. Phần còn lại cần được tinh chỉnh bởi các kỹ sư giàu kinh nghiệm.

Tin vui là: Sau khi được xây dựng hoàn chỉnh, causal graph sẽ trở thành một tài sản tri thức (institutional knowledge asset) có giá trị lâu dài cho tổ chức.

Tương lai của causal intelligence trong doanh nghiệp

Causal intelligence trong ITOps vẫn đang ở những bước đi đầu tiên, nhưng lộ trình phát triển đã trở nên khá rõ ràng. Khi các mô hình ngôn ngữ lớn (LLM) ngày càng được trang bị năng lực suy luận nguyên nhân-kết quả (như kiến trúc neuro-symbolic), chúng ta đang tiến gần hơn tới các hệ thống AIOps có khả năng giải thích sự cố bằng ngôn ngữ tự nhiên, cũng như đề xuất hướng xử lý dựa trên nền tảng suy luận nguyên nhân-kết quả thực sự.

Những tổ chức đầu tư vào hạ tầng causal intelligence từ hôm nay sẽ có lợi thế vận hành đáng kể khi các khả năng này trở nên trưởng thành hơn trong tương lai.

Tài liệu gốc: Forget alerts: It's time for causal intelligence