shabalabala 2018-04-26
近几年,各行各业纷纷拥抱互联网+,借助云计算、大数据等技术来实现生产效率的提升,与之相关的就是企业IT系统越来越复杂。IT系统规模愈大、运维管理精细化要求更高、运维采集指标更多、响应时间需求更短等挑战接踵而来。面对大量运维数据,以及对数据的实时秒级分析处理要求,传统IT系统和模式越来越难以满足当前运维需求。
在过去,IT资源都是通过人工进行管理,需要经过手动定义系统网络架构、配置并克隆虚拟机、配置OS、安装数据库等漫长的流程,才能够使用,并且在部署过程中,人工操作易出错。传统运维压力很大,疲于奔命和救火,必须要寻求改变,走向自动化、平台化、智能化。
在IT服务管理方面,借助ITSM以及自动化技术可以有效提升管理效率。ITSM中的自动化工具帮助企业更高效地提高管理任务,大大缩短应用发布流程,提高IT效率,提升对IT需求的响应速度,有效节省运维、开发人员的工作时间。
在IT运维方面,Docker、OpenStack、Puppet等技术的流行,以及微服务、CI/CD、DevOps等理念的落地生根,自动化运维的发展迎来了小高潮。整体来看,自动化运维平台帮助提升了运维的效率,并减少了因人工疏忽和流程操作失误而引起的运维故障。
随着企业加速自身业务互联网化的进程,新业务和新场景不断涌现,这就要求企业在IT架构方面进行与之适应的调整,对于开发的诉求也更多放到需求实现上面。企业的数字化程度越高,运维的管理难度也越大。
技术界逐渐催生出了服务化的软件架构,以及持续交付过程,同时随着业务体量快速膨胀,因服务化带来的大量的应用管理、持续交付、监控、稳定性、成本控制等非功能性体系的建设和保障就需要有专门的团队来做,这时对于运维的诉求也在悄然发生着变化。
在这个过程中,云计算的发展改变了IT资源供给模式的同时也对运维管理提出了新的变革要求,传统的网络、硬件和系统维护的职责在逐渐被弱化,也在逼迫着运维的关注点从底层转向应用和业务层面,现有运行制度和人员角色需要进行重新定位。
随着AI时代的到来,我们工作和生活中的一切都在被重新定义。企业在尝试通过AI技术提高运维服务的有效性乃至预测性,同时降低成本,实现业务转型。
在2016年,Gartner提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。简单来说,AIOps就是希望基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决在IT运维中通过自动化没办法解决的问题。
作为一种将算法集成到工具里的新型运维方式,AIOps可以帮助企业最大程度的简化运维工作,把IT从耗时又容易出错的流程中解放出来。传统IT运维管理工具更为关注突发事件(即告警)、配置和性能,而AIOps则更加关注问题、分析和预测,二者可谓互相补充相得益彰。
有了AIOps,当IT出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。
数据只有全面才能进行科学的决策,很多时候如果看到的日志不全,或者拿到的监控数据不准,在做决策的时候肯定就会比较贸然。比如数据中心某业务链路出现问题,是不是要切换?数据是不是还能保持一致?这个时候在没有确定的数据来支撑你决策之前,你做决策时都会感到比较忐忑,犹豫不前。
就目前来看,国内的百度、搜狗、阿里巴巴等互联网厂商已经在探索尝试AIOps,并且取得了不错的效果。通过支持AIOps能力,平台能够提供更大的分析调整自修复能力,更进一步提高IT效率。
如何从错综复杂的运维监控数据中得出我们所需要的信息和结果,一句话就是分辨和精炼。同时,确保业务和SLA服务级别,出现问题要及时响应、自动分析和优化,把处理的流程精简和高效组合起来,让问题匹配正确的场景,找到正确的人,在第一时间正确处理。
机器学习需要大量的数据来训练,故障出现的形态是千奇百怪,对故障的历史数据进行场景分类和标注,不断用模式识别和数据来训练机器识别和分析,然后让机器自动准确判断。
基于数据和模型来提高事件的处理能力。很多事件有的工程师处理的特别快,反之如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考和学习,提高同类场景事件处理的能力。
我们以数据中心的管理与运维为例,数据中心的运维工作主要包括配置管理和监控,运维人员每天都要进行大量的模块维护操作,这个过程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及时发现所有的故障,另一方面,这一过程中人为失误的可能性不可避免。将人工智能应用于数据中心的管理和控制,通过机器学习模型进行精细化管理,可以实现智能化运维的目标。
谷歌可以说是最早在数据中心的管理方面运用人工智能技术的代表了,它使用人工神经网络对大型数据中心的运行进行分析,对数据进行了收集和汇总(像数据中心基础设施的耗电量、为达到一定制冷效果所用的水的量),通过人工智能计算模型对数据中心的运行效率进行分析和评估,提出相应的改进数据中心运行效率的解决方案。