ppabc 2018-04-11
程永新·新炬网络董事/副总经理
2004年前后,国内开始大规模的进行IT系统建设。初期,主要以IOE的大型设备为主,设备昂贵、数量少、规模小且放置在独立的封闭机房里,运维基本上是通过电脑显示器上的SecureCRT命令行进行操作。
随着IT系统架构从传统的IOE集中式架构向互联网分布式架构演进,IT设备从几十台变成成千上万甚至几十万台,没有工具,运维工作根本无从开展。因此,可视化、自动化、智能化成为了运维工具建设的三个方向和要求。
可视化。首先要把以前“隐藏”在显示器背后的各种设备信息、性能指标、日志信息抓取出来,使领导和运维工程师都能直接在运维大屏上清晰看出链路的中断和指标的异常,进而快速决策处理。所以,可视化是运维工作从黑屏到白屏的转变,需要对各种运维数据进行统一采集、存储并聚合展示。这个时期,新炬网络的做法是通过纵向打通应用层、平台层和设备层,横向接入全网IT设备,采集全网数据,并在此基础上结合具体的算法去做展现,从而帮助运维人员通过可视化呈现价值。
自动化。更客观来说是自助化,即帮助运维人员解决海量设备运维标准化操作的问题,把大量重复的劳动、可预置解决方案的问题、可通过编排完成的应用发布,通过程序设定触发自动完成,或在半人工干预的情况下完成,提高运维效率的同时大幅降低人为误操作率。如此看来,自动化可以认为是智能化的前奏。自动化的主要目的,一是提升效率,二是安全可控,三是降低人员依赖。要做到这三点则必须明白:一切没有固化到平台的标准化过程都是无用功,一切没有场景驱动的运维平台建设都是假大空,集合真实的运维场景与运维平台于一身的自动化才能真正解放企业效率。
智能化。智能化的目标是让机器替代人脑,借助现代设备的计算能力、海量的运维数据和不断进化的机器学习算法,进行问题分析、故障预测和决策诊断,让运维人员无需实时关注运维屏幕,进一步提升故障处理效率,并在故障发生前自动决策进行系统重启、业务限流、设备扩容以减少故障发生概率。想要真正实现智能化,光有工具也是不够的,还需要结合实际的运维场景,优化数据价值,以智能化驱动运维能力,最终实现从发现、决策分析到问题解决的闭环解决手段。
程永新用一句话总结运维的这三大阶段:可视化呈现价值、自动化解放效率、智能化驱动能力,最主要的目的都是提升运维效率与质量,解放运维人力,让运维能从后端走向前端,更多地关注新技术如何驱动企业业务增长。
当下,IT系统异常复杂且庞大,企业数据中心以两年翻一番的速度增长。同时随着企业业务的IT化程度越高,对IT支撑的要求也越高,核心业务甚至容不得1分钟的中断,这给运维带来巨大的压力。所以运维行业本身就一直在进行变革和提升,从之前倡导的自动化到现在的智能化。
近几年,AI 技术在各个应用领域的落地及实践,IT 运维也将迎来一个智能化运维的新时代,AIOps 的概念由此应运而生。但AIOps不是Artificial Intelligence Operations,而是Algorithmic IT Operations,这其中强调的是机器学习算法对IT运维能力的变革升级。
AIOps把人需要进行的复杂判断和数据分析交由算法和机器来完成,大大提升运维的效率和质量。如果说自动化是解决运维的体力劳动,AIOPS的出现则是进一步利用数据科学、机器学习、神经网络等算法技术解决自动化运维自身没办法解决的运维决策、故障预测、基于全量运维数据的根源分析等问题,进一步解放物理人的时间和体力,让机器帮助机器进行IT运维。
据Gartner数据显示,AIOPS提出两年来企业的采用率约为10%,预计2019年会达到25%,2020年将达50%。目前应用和研究得比较多的主要在四个方面:
一:数据的异常检测和趋势预测,即如何快速从海量指标中发现异常变化和趋势,比如新炬网络AIOps智慧运维平台的服务器性能故障预测模块就是为此研发的;
二:根因诊断,在系统出现异常时,如何快速定位问题的根因点,比如百度基于日志的智能故障定位系统;
三:任务机器人,在微服务框架下模仿人去学习、理解和使用系统API,在API出现异常时能在无人为干预之下实施主动行为;
四:基于运维数据的决策分析,如容量分析。
程永新表示,AI虽然已经在很多行业得到应用,但仍属于比较前沿的科技,需要巨大的投入。对于AIOPS来说,算法、数据和专业三者缺一不可,与大众领域相比,运维行业对AI人工智能的人才吸引力较弱,因此在这方面的专家相对薄弱,需要尽快构建起自已的AI人才体系。
新炬网络作为国内目前先进的IT运维服务厂商,始终坚持以用户满意度作为服务标准。随着IT系统架构的升级变迁,运维服务也一直进行着演变,以确保用户对于IT系统的管理体验。例如:
程永新介绍,新炬网络在几年前就成立运维产品部,构建基于AIOps的新一代智慧运维平台,经过这么多年,不同的行业客户应用的大规模迭代更新。这个平台在中国移动某省公司落地 ,管理近2万台设备、几百个业务系统,提供监控告警、自动化运维、配置管理、调度管理、决策管理等能力,充分体现了插上AI翅膀后运维平台焕发出的崭新生命力,在趋势分析、智能诊断、故障自愈、决策分析等方面均得到有效发挥。
AIOps的新一代智慧运维平台最具飞跃性的迭代是于2016年完成大数据日志分析平台IVORY的发布,主要解决基于运维大数据的分析预测问题,通过对海量日志数据和运维数据的智能分析,提供运维决策、智能诊断、根因分析等能力,把运维从传统的被动响应向智能分析和预测提升了一个能力档次。
IVORY应用了先进的大数据技术与架构、非结构化数据处理技术、异常检测、机器学习等相关技术手段,这也是新炬网络对AIOPS理念的落地实践。
采访最后,程永新表示,新炬网络这些年一直致力于给客户提供出色的IT运维管理服务,通过对服务模式、产品能力、人才制度上的创新,提供出色的用户体验。
未来新炬网络的重点布局主要在两个方面:
一:通过以“企业级产品+本地化服务”的双轮驱动方式,不断提升服务效率与用户满意度;