网教网

搜索
查看: 127|回复: 0

老杨说运维 | 智能化告警在全面可观测性中的重要性

[复制链接]

1

主题

2

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-11-25 16:24:05 | 显示全部楼层 |阅读模式
前言:
随着容器、微服务、中台的迅速流行,系统间的访问越来越复杂,在云内、云间可能会运行数千个进程和服务,服务的调用从传统的点对点和点对多点演变成网状。在此背景下,传统的监控技术和手段很难跟踪到这些分布式架构中的数据流、调用链和相互依赖关系,系统内部的可观测性就变得非常重要。
“可观测性”如此重要,那它究竟是什么意思?跟告警又是什么关系?我们往下看。
一、什么是可观测性

可观测性(Observability)最初源自于自动控制领域的一个术语,在控制论中,可观测性是指系统可以由其外部输出,来推断其内部状态的程度,系统的可观测性越强,我们对系统的可控制性就越强。2018年CNCF(云原生计算基金会)把这个概念引入了IT运维领域,称其是云原生时代最重要的系统能力。它的核心是度量,度量你的基础设施、平台、应用、数据和业务,了解它们是如何运行的。
正如管理学大师彼得·德鲁克曾说过:“如果你不能测量它,你就无法管理它。”用在智能运维管理决策中,就是想要做好数据管理,就需要先对它进行度量。
所以说可观测性其实就是能够实时且清楚地输出可衡量系统内部状态和过程从而帮助运维人员解决根因精准定位、得出结论、挖掘场景化等问题,实现协作分享、灵活整合,真正打破数据孤岛。
二、可观测性与告警的关系

作为可观测性的度量指标之一,告警往往影响着运维人员的判断。但有时由于系统原因,告警并不能立刻反映出系统真正的问题,从而导致运维成本增加。比如在以下三个场景中,告警的作用就很一目了然了。




  • 场景1:KPI驱动下的开单风暴
在告警体系中,确保分派是一个非常重要的事情,如何准确有效地开单是核心问题之一,很多银行要求应开即开,但这样会造成开单风暴的出现,这个结果是运维人员不想看到的。这就需要由底层逻辑出发,不仅仅从告警本身进行开单,而是需要对一些有意义、有价值的信息进行开单。


  • 场景2:末端优势下的链式洞见
有些告警的引发并不是单一的,可能是告警A引发了告警B,而告警B又引发了告警C。告警C是我们看到的问题,但源端问题却出现在告警A中。这种链式的问题从末端C溯源到A,能够给到一种确定性的价值,只有确定性才能在进行处置时让决策更准确。


  • 场景3:智能挖掘下的参考提示
智能实际上是把未知变成已知的状态,是把问题从大变小,层层剥离的过程,最终可以把这种未知问题收窄到可以分析并固化,沉淀至知识库,为以后可能出现的问题提供参考价值。

三、告警的重要性

早期运维中的告警是挂在监控系统中的,随着运维数据体量跨越式的增长,告警的作用愈发明显,逐渐演变为单独的体系,成为智能运维体系中的一个重要支柱。具体表现如下:
1,协助运维人员推断有关联的信息。通过解析告警信息,运维人员能够从表层问题推断和了解深层内因,从而获取具有意义、有价值的信息;
2,把数据转化为可供执行的见解。通过链式洞见找到确定性根因,让运维人员能够快速准确地做出决策,从而解决问题;
3,提供排障经验。能复用的经验,可以不用花费大量时间去思考,在问题出现的时候,根据知识库沉淀的经验能够快速解决问题。

当下很多人对告警的期望往往是:当告警发生时,能否立刻定位根因?什么时间发生的?等等。但我们认为,当下智能化告警并不能一击即中,能够做到上述三点,就已经能够帮助运维实现非常大的提升了。

四、既然告警如此重要,那如何才能做好告警呢?

做好一个告警平台,我们认为需要六个字,即:聚焦,理解,合纵。

  • 聚焦:在告警出现的时候,不出现漏报,并能够做到主次分明,可以依据个性化需求关注相关问题,也能在之后起到一定的预警作用。




  • 理解:能够把沉淀下来的经验固化成可追溯、可循迹的路径,在告警到来的时候充分理解其中的信息,以自动化或关联的形式快速解决问题。




  • 合纵:融合信息,面对一个告警的来临,横向补充信息确认告警的价值,纵向挖掘这一告警的出现规律,辅助进一步地推断或执行。



擎创告警产品——“Uni-AlertNex 告警辨析中心”,历经数个版本,从智能回归传统再到实际落地,期间不断加入新角度以提升告警各项能力。将过往的知识与经验沉淀,形成固化路径,能周而复始地使用,帮助运维老兵节省时间出来去做更多重要的事情。

\large\bold{更多新告警平台打造思路后续我们将持续更新,敬请期待~}\\ \large\bold{随手关注,更新不迷路~}\\
<hr/>

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
\large\bold{行业龙头客户的共同选择}\\



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表