九品神元师 2019-06-27
摘要: 概括F3经典使用场景
最近两年,人工智能在全球掀起了巨大的应用热潮,除了互联网巨头,如Google,Facebook,Alibaba之外,涌现出众多的Start up公司,也都逐渐成为行业翘楚。
在人工智能技术方案选择上,GPU无疑是现阶段的首选,这其中的主要原因,一方面,GPU完善的生态,高并行度的计算力,很好地帮助客户完成了方案的实现和部署上线;另外一方面,人工智能发展,仍处于早期阶段,各个行业都在从算法层面尝试寻找商业落地的可能性,是一个从“0”到“1”的过程。在可以预见的未来几年,随着人工智能落地应用越来越多,大规模商业部署渐渐成为可能,进而对于更低功耗,更低成本,更低处理延时,更多定制化等的需求,将会逐渐凸显。可是F3在人工智能大规模商业部署(推理应用)中,具备独特的性能优势和广阔的潜在空间不可小视。
低延迟
相比于F3(FPGA),GPU计算的处理优势,在于其众多专用的并行计算单元以及超高的显存带宽,让多路大规模数据搬移快速并行计算成为典型的计算模式,但这一模式导致了每路数据的处理延迟增加,对于一些低延迟需求的在线业务场景,如语音识别等。在Batch值较小的情况下,F3(FPGA)的处理延时,仅为GPU的1/10。
超高的定点计算力
对于深度神经网络的计算,一个发展趋势就是降低数据表示的精度,降低网络对于计算力的需求,以提高计算吞吐量。从双精度浮点到单精度浮点,再到定点处理。而定点运算却是FPGA的传统优势,相比于GPU,FPGA内部配备了众多的定点处理单元,甚至整个FPGA芯片内部逻辑资源全部可以配置成定点处理单元,进而具备了超高的顶点运算能力。
目前申请测试的客户中,有很大一部分就是冲着F3的这些优势而来,期望在其业务上带来创新和产品的性价比提升。
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,基因测序技术能锁定个人病变基因,提前预防和治疗,目前基因测序广为人知的是针对唐氏综合征筛查的无创产前基因检测。伴随着基因测序技术的快速发展,基因数据的生成呈现指数级增长,而应用也越来越广泛,对分析能力提出更高要求。
传统的计算系统通过采用多个高端CPU搭建HPC系统实现了缩短时间的目的,但这样也使得成本增加,行业应用规模以及基因企业发展规模受限。目前国内基因企业,面临基因计算成本偏高,而业务需求旺盛,急需高性价比的算力资源解决行业困境。
以人类全基因组(WGS)分析为例,单个WGS,使用一台16c/64GB的CPU实例,完成分析需要近100小时的时间,而F3在30分钟以内即可完成。极大地缩减了计算时间和成本。
通过选用F3云主机,基因企业在基因计算环节可以大幅提升产能;而普通大众,也能享受成本降低带来的普惠。
在传统的数字IC设计流程中,使用FPGA搭建芯片原型验证平台,测试功能是重要的一个环节,在这个过程中,需要大量的FPGA逻辑单元。而对于传统数字芯片设计公司来讲,购买或者自研复杂的FPGA验证单板/或平台,耗时耗力,且不是公司主要业务方案,加之FPGA平台升级换代速度超过芯片设计周期,对于更大逻辑量FGPA板卡的追求,不断研制最新fpga板卡一直是大型数字芯片设计的痛点之一。
F3云主机,选用单芯片逻辑单元达250万个的VU9P,支持双芯片600Gbps的互联,以及多板块间的100Gbps的互联,最大实例支持16个VU9P芯片,很好地满足了数字芯片原型验证阶段,对于大逻辑量的需求。
而客户选用F3云主机,避免了维护复杂FPGA板卡的大量人力物力的投入,缩减了验证平台的维护成本。
随着视频采集及传输技术的发展,视频素材的分辨率和帧率在不断提升。分辨率从2K到4K到8K;帧率从30到60到120;新的标准及技术,比如HDR,也不断出现。
素材质量的增长,图像码流量也随之增长。人们需要压缩率更好的压缩算法标准,才能够适应新的图像压缩需求:
• 同样的压缩率得到更好的画质
• 同样的画质得到更好的压缩率
以H.265编码为例,目前客户选择的主流技术平台为CPU或者GPU。
对于H.265/HEVC编码处理,FPGA方案有着最完善的功能和preset配置,支持最多的有利于提高画质和降低bitrate的功能,适合各个场景下H265/HEVC的编解码配置。同时具有灵活部署,易于升级的特点,非常容易就可以在某一个平台上升级IP特性,甚至根据需求,随时更换成其他协议的编解码功能。
FPGA的可扩展性也是GPU不可比拟的,能非常容易的在同一块FPGA上pipeline部署编解码相关的上下游应用;同时,因为FPGA之间的高速互联特性,也可以方便地在不同FPGA、不同FPGA板卡间部署完整的相关应用方案。
成本方面,高画质IP虽然通道数量基本与GPU持平,但是带来的bitrate的大幅降低,可以显著降低带宽成本、存储成本,综合成本是降低的;
以下为一个典型的H.265编码测试场景,在编码速度对应x265的“very slow”配置结果,FPGA编码器能够达到1080p60(60帧/秒)的处理能力,远大于x265的3帧/秒。
5.数据库加速
在数据规模爆炸式增长的背景下,数据处理的速度,无疑是用户所关心的。
以大型互联网公司为例,每天处理的数据量级都在 PB ,每天更新的网页以亿计,每 24 小时更新的日志超过PB。这样的数据规模,对于目前的处理平台,是个巨大的挑战,需要大型的集群来完成。而在这样的数据处理规模中,数据仓库的性能,直接关系到了数据本身的处理能力。
F3(FPGA)云主机,得益于FPGA细颗粒度的数据处理能力,高并发度的并行计算能力,能够大幅提升数据库产品的性能:
以数据库处理中的排序单元为例,在PostgreSQL的核心处理单元加速中,F3相比CPU能够带来10倍以上的性能提升。
再以时序数据的处理为例,大数据领域中,时序数据使用超过一半。广泛应用于物联网(IoT)设备监控系统 ,企业能源管理系统(EMS),生产安全监控系统,电力检测系统等行业场景。F3单路数据吞吐性能是单核CPU的30倍以上!
原文链接