libinhai0 2017-06-05
中国电工技术学会主办,2017年6月21-24日在河北省张北县举办,大会围绕新能源发展战略、系统关键技术、微电网及储能等重要议题展开交流。浏览会议详情和在线报名参会请关注微信号“电气技术”。
华北电力大学控制与计算机工程学院的研究人员朱永利、李莉、宋亚奇、王刘旺,在2017年第9期《电工技术学报》上撰文指出,计算性能是制约电力大数据应用(基于大数据的故障诊断、预测等)的关键问题。利用分布式存储、并行计算加速此类数据密集型应用是目前较有效的手段。
尝试利用阿里云开放数据处理服务(ODPS)存储并加速电力设备监测大数据分析过程。以变压器局部放电(PD)数据相位图谱分析(PRPD)为例,提出了适合高采样率、时序性强的局部放电信号数据存储方法。
采用ODPS扩展MapReduce模型(MR2)设计了“Map-Reduce-Reduce”方式的PD信号宏观特征提取方法,提出了并行化PRPD分析算法(ODPS-PRPD),实现了大量PD信号的并行基本参数提取、统计特征计算与放电类型识别。
在实验室中构造了4种放电模型并采集了大量PD信号,分别在ODPS平台上和实验室自建的Hadoop平台上进行了性能评估和成本分析。
实验分析和结果表明,ODPS-PRPD将大量的中间过程数据(PD谱图数据等)一直保存在内存中,相比自建HadoopMapReduce平台性能明显提升,并在数据可靠性、服务可用性以及成本方面具有明显优势。
近年来,随着信息化与电力系统深度融合以及物联网技术的快速发展,智能化电力一次设备和常规电力设备的在线监测都得到了较大发展并成为趋势,监测的广度和深度在不断加强,监测数据的体量日益庞大。
传统监测装置和监测系统大多对采集数据就地处理再将“熟数据”上传到监测中心。但从国际监测领域的发展趋势而言,采集数据的处理已开始从就地监测装置向远方监控系统上移,如GE公司对于众多汽轮发电机组的监测,近期采用了监测装置的存储与处理能力弱化、监测中心的存储与处理能力提升的方式,有利于上层应用软件的及时更新。
鉴于高速光纤数据网和无线传输已在电力行业广泛普及,下一代电力设备远程监测系统需要获取和传输的数据主流应当是原始监测数据。大数据蕴含大价值。大数据的存在引导人们研究“数据密集型”的应用系统,与大数据交互,识别新模式,发现新规律。
“数据密集型”计算的性能直接与数据规模相关,大数据计算面临着前所未有的技术挑战。近年来,并行与分布式计算系统(多核计算、网格计算、云计算等)以及并行编程模型(MapReduce、MPI等) 在加速数据密集型计算中扮演着重要角色,典型的技术包括Google MapReduce、 Hadoop、 Swift、DataCutter、DryadLINQ/Dryad、并行数据库(如Vertica、Teradata等)、AWS Cloud、阿里云开放数据处理服务 (Open DataProcessing Service,ODPS)等,它们已经在商业、金融、互联网以及生物计算、工业监测等许多领域承担着数据密集型应用的计算任务。
在电力行业,Hadoop大数据处理技术凭借其高可靠性和优越的并行数据处理能力越来越受到学术界和企业界的重视。基于Hadoop的应用研究广泛而深入,包括状态监测大数据存储、电力用户消费数据分析、信号去噪、数据压缩、电能质量数据快速分析、状态监测数据聚类分析、配电网数据分析、基于云平台的并行电磁计算等。
本文在前期的研究中,在实验室自建了Hadoop平台,开展了输变电设备状态监测数据存储优化、数据并行分析等方面的研究,遇到的主要问题和面临的技术挑战主要包括:
1)硬件限制: 大多数学者的前期研究中,均采用了自建的Hadoop平台,存储和计算资源有限。
2)并行程序框架限制: Hadoop的MapReduce在每一轮操作之后,数据必须存储到分布式文件系统上或者HBase,接下去的Map任务执行了冗余的IO操作,导致性能下降。
3)受规模、维护方面的影响,数据可靠性、服务可用性降低。
4)前期需要购买大量硬件,成本较高。
总而言之,构建“数据密集型”的电力大数据应用系统,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求,而自建Hadoop平台不易满足。
公有云计算平台以按需租用的方式,将用户从硬件采购、组网、平台搭建、系统软硬件维护中解脱出来,将存储资源、计算资源以Web Service的方式封装,并对外售卖,使用户可以专心于构建系统的业务逻辑。
由于有庞大的研发和维护团队,目前商业阿里云平台在存储容量、计算性能、可靠性、扩展性、可维护性等诸多方面已远远超出许多学者或团队自建的云平台。本文尝试利用阿里云ODPS存储并加速电力大数据分析过程。利用ODPS的扩展MapReduce模型 (MR2)设计了“Map-Reduce-Reduce”模式的局部放电 ( Partial Discharge,PD)信号宏观特征提取方法,实现了海量PD信号的并行统计特征计算与放电类型识别。
实验结果表明,本文方法相比于Hadoop MapReduce在计算效率上明显提升,并在数据可靠性、服务可用性以及成本方面具有明显优势。
图1 ODPS框架和功能组件
结论
利用现有大数据存储和并行处理技术,加速数据密集型应用计算速度,助力电力大数据价值释放,是电力大数据应用研究的主要目标之一。
本文基于阿里云大数据计算服务ODPS设计实现了海量变压器局部放电数据的存储方法,提出了基于ODPS扩展MapReduce模型MR2的并行化PRPD分析方法ODPS-PRPD,实现了海量PD信号的并行基本参数提取、统计特征计算与放电类型识别。
ODPS-PRPD利用pipeline将Map和多个Reduce过程连接起来,使大量的中间过程数据保持在内存中,相比Hadoop-PRPD节省了大量的磁盘访问开销,性能明显提升。
与自建Hadoop平台相比,ODPS的优势主要体现在:
①弹性伸缩。参与计算任务的硬件资源随数据规模的增长自动增长,使计算任务的执行时间保持非常平稳的趋势。②存储容量可达PB级,计算能力弹性伸缩,在对51GB的PD数据执行PRPD分析时,参与的 CPU 核心多达1093个,内存多达1639GB,这是自建平台很难企及的。③成本优势。完成本文实验使用了上千颗CPU核心和上千GB的内存以及大量的磁盘存储,租金仅6.96元,即使考虑暂时未开通的MapReduce计算费用,价格也非常低廉。考虑到数据的安全性,可以将ODPS系统部署在电力专有云平台上,以保证数据的隔离。