Skip to main content

AIOps

维度传统运维AIOps
运维姿态被动响应主动控制
数据处理数据孤岛,手动分析数据聚合,实时AI驱动分析
告警机制静态阈值,高噪音,告警疲劳动态基线,事件关联,噪音抑制
根因分析手动、缓慢的“作战室”模式自动化、快速的因果关系确定
故障修复手动执行预案,依赖人工干预自动化、闭环式修复
主要目标维持系统稳定保障服务性能与优化用户体验
层级主要功能关键技术方法
数据层 (观察)数据采集与聚合;日志管理、指标收集、分布式追踪Kafka, Fluentd, Prometheus, OpenTelemetry
分析层 (参与)异常检测、事件关联、预测性分析、根因分析统计建模、聚类算法、分类算法、深度学习、TensorFlow、PyTorch
自动化层 (行动)工作流编排、自动化修复、ITSM集成Ansible, 运行手册自动化, Webhooks, APIs
呈现层统一仪表盘、拓扑映射、报告、自然语言查询Kibana, Grafana, 自然语言处理 (NLP) 引擎
  • FinOps - 云与资源优化
  • SecOps - 安全运维
  • 架构
    • Detection (检测):检测系统异常
    • Localization (定位):定位异常位置
    • Analysis (分析):分析根本原因
    • Mitigation (缓解):修复和缓解异常
  • “被动响应” -> “主动控制”
  • “阈值判断” -> “统计分析”
  • 基础
    • 关键指标 (Observed Key Metrics)
    • 熔断器 (Circuit Breaker) - 闭合、断开、半开
    • 权重调整与流量整形 (Weight Adjustment & Traffic Shaping)
      • 精确地控制用户流量的流向
    • 自愈 (Self-healing)
  • 高级 - 渐进式交付 (Progressive Delivery)
    • 金丝雀发布
    • 蓝绿部署
    • 灰度发布
    • 滚动发布
  • Agent-Based AIOps
  • MAS - Multi-Agent System - 多智能体系统
  • SRE 角色特点
  • 自治性 (Autonomy)
  • 本地感知
  • 主动响应
    • 自我恢复
    • 精确诊断
    • 协作求助
  • 协作
  • OODA
    • Observe - 观察
      • 指标、日志、追踪、事件
    • Orient - 认知
      • 服务画像、模式匹配、异常检测、关联分析
    • Decide - 决策
      • 决策树
      • 自我修复、深入诊断、协作与求助、上报与隔离
    • Act - 行动
  • 指标 - 定量
    • 已知-已知
  • 日志 - 定性
    • 未知-未知
    • Log -> Metrics
  • Closed-loop Automation - 闭环自动化
  • Open-loop Automation - 开环自动化 - Human in the loop
  • Event Correlation - 事件关联
abbr.stand formeaning
MTTDMean Time To Detection平均检测时间
MTTRMean Time To Repair平均修复时间
MTBFMean Time Between Failures平均故障间隔时间
MTTFMean Time To Failure平均故障时间
MTTRMean Time To Recovery平均恢复时间
MTTAMean Time To Alert平均告警时间
RCARoot Cause Analysis根因分析
MOOMultiple Objective Optimization多目标优化
SOOSingle Objective Optimization单目标优化
encn
Anomaly Detection异常检测
Root Cause Analysis根因分析
Mitigation缓解
Self-Healing自愈
Progressive Delivery渐进式交付
Canary Release金丝雀发布
Blue-Green Deployment蓝绿部署
Gray Release灰度发布
Observed Key Metrics关键指标
Traffic shaping流量整形
Weight adjustment权重调整
Progressive Delivery渐进式交付
Weight-based Routing权重路由
Content-based Routing基于请求内容的路由
Gradually Shift Traffic渐进式流量迁移
Circuit Breaker熔断器
Blast Radius Control爆炸半径控制
Chaos Engineering混沌工程
Fault Injection故障注入
Resilience Testing弹性测试
  • Observed Key Metrics
    • 最原始、直接观测到的系统健康数据。
    • 实时监控与告警,是所有分析的基础和数据源。
  • 事件管理生命周期
    • 事件报告
    • 根因分析
    • 事件缓解
    • 事件复盘分析

AIOps 定义

2016年被称为“算法IT运维”(Algorithmic IT Operations),意在成为IT运维分析(ITOA)的下一代演进 。 然而,在一年左右的时间里,Gartner将其调整为“面向IT运维的人工智能”(Artificial Intelligence for IT Operations)。

AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination. AIOps 结合大数据和机器学习,自动化 IT 运维流程,包括事件关联、异常检测和因果关系确定。

Awesome

FAQ

AIOps vs. 金融量化交易

  • “数据驱动自动化”框架
  • AIOps
    • “诊断与修复”的协作的游戏
    • 对手是系统熵增和复杂性
  • 量化交易
    • “预测与博弈”的零和或正和游戏
    • 对手是整个市场
维度AIOps(智能运维)金融量化交易(Quantitative Trading)
核心目标系统可靠性与效率:保障服务稳定,满足服务水平目标(SLO),最小化故障平均解决时间(MTTR)。利润最大化:在可接受的风险范围内,通过市场波动实现盈利。
数据源/指标系统遥测数据 (Telemetry):
- 指标 (Metrics):CPU使用率、内存、API延迟、错误率。
- 日志 (Logs):系统事件、错误堆栈、用户行为记录。
- 追踪 (Traces):分布式系统中请求的完整路径。
市场数据及另类数据:
- 价格/成交量:开盘价、最高价、最低价、收盘价、成交量(OHLCV)。
- 订单簿:买卖盘口的深度和流动性。
- 新闻/舆情:社交媒体情绪、新闻公告。
- 另类数据:卫星图像、信用卡交易数据等。
信号/触发器异常模式 (Anomaly Patterns):
- 指标偏离动态基线。
- 罕见的错误日志模式出现。
- 多个告警事件的高度相关性。
- 预测性告警(如磁盘即将写满)。
阿尔法信号 (Alpha Signals):
- 技术指标交叉(如移动平均线金叉/死叉)。
- 统计套利机会。
- 市场情绪的突然转变。
- 基于机器学习模型预测的价格方向。
操作/行动自动化修复/响应 (Automated Remediation):
- 重启服务实例(Pod)。
- 调整资源配额(水平/垂直扩缩容)。
- 切换流量(如蓝绿部署、金丝雀发布)。
- 触发熔断器。
- 创建并指派工单。
执行交易 (Trade Execution):
- 下达买入/卖出/做空订单。
- 调整投资组合头寸。
- 对冲风险。
- 算法执行(如VWAP、TWAP)以减小市场冲击。
核心逻辑/大脑AIOps引擎/智能体 (Agent):
- 统计模型、机器学习模型。
- 根因分析(RCA)算法。
- 基于LLM的自主智能体,具备推理、规划和工具使用能力。
量化模型/策略引擎:
- 统计模型(如协整、回归)。
- 机器学习模型(如LSTM、梯度提升树)。
- 投资组合优化算法。
- 高频交易策略。
环境本质协作与修复:AIOps面对的是一个物理或虚拟系统,其行为遵循物理和逻辑定律。目标是理解并修复这个系统,使其恢复“健康”。对抗与博弈:量化交易面对的是一个由无数理性与非理性参与者构成的复杂市场。目标是在与其他参与者的博弈中获利。