Python中文社区 2016-11-16
摘要:本文整理自阿里云大数据高级专家张鸿飞(彧然)的分享。医学是一个实践科学,很多知识都是通过实践经验积累的,而经验最根本就是数据,所以,数据对整个医疗的发展有非常好的促进作用,在本文中彧然分享了医疗大数据如何借助云计算能力实现人工智能的落地,产生数据的智能,以及针对互联网医疗面对的挑战该如何应对。
以下内容整理自现场速记以及演讲PPT
今天,阿里云的思路就是打造这样的一个生态体系:从底层把阿里云的平台和设备变成像水电一样的普惠科技,进而把技术和能力输出出来。由于阿里云擅长对数据处理能力,这时候就需要与领域内的客户进行充分的合作。比如像在医疗行业,阿里云的客户往往拥有更多在医疗行业的服务的专家,让他们去与医疗行业结合,阿里云则是把底层的云的平台和技术输出给大家。大数据谈了那么多年,其实可以把它往大了想,也可以把它往小了想,一个简单功能的实现其实也是大数据的应用。所以根本上讲,还是需要把大数据落地,所有的东西都要结合业务,技术和平台的输出要结合到业务点上去把它落地,这样才能形成一个有帮助的,能解决问题的成果。无论是节约经济成本还是时间成本,还是提高效率,或者是进行创新,只要能解决问题,就是大数据的一个成功落地。但是如果没有找到一个落地实现,那大数据本身就是空想。
阿里云在各个行业里面基本都形成了一些落地的方案,这些方案和经验的积累能使得阿里云对医疗行业有所推动。但是今天的医疗行业是大数据推进相对比较迟缓的部分,因为这里面有太多的政策因素,以及行业的特殊性。医疗行业特殊性造成数据纷繁复杂,比其他传统行业里面结构要广得多,也要复杂得多,在医疗行业数据有图片的,有图像视频的,有语音的,甚至医生写的潦草的病例单子,各种数据都有。而且在医疗行业里面,要落地大数据也有很多政策从国家层面指导我们。
2030健康中国的报告是国家处于政策层面做出的政策引导。传统方式是把医疗和健康隔离开来,生病了才去医院看,不生病时大家对于保养健康也关注的比较少。2030健康中国报告提供了一个思路就是把医疗和健康结合起来,今天很多互联网创业公司也在更多地关注健康,给大家提供更多的服务,比如美柚这些APP,以及一些网上健康监控和可穿戴设备,它们对我们的健康帮助很大。
从国家层面来讲希望将健康和医疗整合在一起,我也发现一点就是比如优化多元格局医疗发展健康服务的新形态,其实就是把医疗健康和传统结合起来。比如病人去医院看完病,也能线上跟踪自己的健康状况和报告,包括病好了之后,了解怎么保持健康状态。所以共享全面健康需要引进互联网思维。所谓互联网思维其实很简单,互联网三大基因就是连接、分享和智能。在传统医疗行业里面有三大痛点:资源不均衡并且使用率低,信息孤岛严重,经验医学资源浪费严重。
资源不均衡并且使用率低的表现就比如有些医院在地理位置,或者国家财政方面的投入,以及设备资源投入相对比较多,但是这些资源未必会得到100%的利用。
另外情况就是信息误导严重,医患交流不通畅。大家去医院看病,实际上只是挂这个科,病人跟医生有一个直接的交流,但基本不存在横向的交流, 这些信息其实都没有共享,或者说不知道以往人家是怎么解决的。只能说医生告诉病人他的经验,因为医生会知道其他人进来是什么状况,是什么样的诊断方案,出现了什么结果。但是作为患者来讲是不知道的,他不知道其他人出现这个情况后面是怎么做的,需要注意什么,治疗方案是什么,后面出现很多结果,最后什么是好的,都不知道。所以医院里面不光是医患的信息不通畅,而且医院横向的信息也是不通畅的。比如说科室跟科室之间,医院跟医院之间信息往往不通畅。
还有资源的浪费问题,刚才提到医疗设备的问题,一些设备不能100%的利用。举个例子说明什么是资源共享。今天在很多行业里面都会涉及到行业里一些共性的地方,比如说病人在医院做了影像,这个影像在各个医院拍出来都是大同小异的,但是每个医院都重新做一次。为什么不做一个专门抽血和拍照的医疗检测中心呢,拿到结果在各个医院都可以看,把这些有共性的东西抽出来就达到了资源整合,并且提高了效率。比方拍影像非常慢,可能要两三天才能拿到,有些医院就比较小,影像有时候可能都没有人用,也浪费了资源。将这些共性的东西抽离出来作为一个中心以后,病人需要挂专家号,只要把前期的报告拿给专家就好。所以讲互联网思维怎么去引导行业,不光需要依靠大数据,而是首先应该从思维上去转变。引入互联网健康和医疗,那刚刚提到的是几个可能方向,比如说资源共享。
医疗行业面对的技术挑战,包括如何保证系统的安全稳定,保护医疗信息不泄露,因为这些信息都关乎生命。从另外一个角度讲,安全这个问题,需要重点关注一下,在很多这些关键制造领域,往往都是不安全的。其实从今天的技术角度来讲,安全已经不应该是大家关注的核心点了。因为技术已经能够保障了,更多安全问题实际上是在于人,为什么这么说呢?举一个例子,美国的中情局,大家觉得它够安全了吧,但是为什么还是有信息露出来呢,因为斯诺登,所以也印证了那句话,堡垒是最容易从内部攻破的。所以所谓的安全体制从技术上讲没有太多的缺陷,更多在于人的因素。而人的因素怎么去把控呢?首先要做到权限审级,数据安全的权限审级,所有的数据安全分等级非常严格,可见阿里云对安全的重视。
回到一个很通俗的话题讲安全,什么是绝对的安全。比如说飞机安不安全?飞机安全还是汽车安全?飞机看上云不安全,是因为它受到的关注度更高,就像阿里云今天在国内说云计算是一样的,受到了万众瞩目,所以一旦上面出一丁点的问题,大家就说不行,这个有漏洞。飞机不安全是因为只要出现一个很小的事故都会报道,大家都会知道。但是相对来讲,飞机乘客生命安全对航空公司来讲就是生命线,就好比说今天阿里云客户在上面数据是阿里云运营的生命线是一样的。今天开放云平台给更多的企业,就是阿里云的生命线。实际上与飞机相比,汽车更不安全。所以所谓数据安全在我看来只要大数据或者数据人工智能能够解决问题,提高效率,安全相对来讲就没有问题。今天在阿里云上的数据往往就能够解决你的问题,就好比开车可能要开好几个小时,飞机一会儿就到了。所以数据安全不是绝对的,但是今天阿里云花了很大的代价,把数据安全当成生命线去维护。而在医疗行业,往往很多医院不希望把数据迁移到云上,当然我也理解他们在安全方面的顾虑,这也是无可厚非的,但是我觉得更重要的是今天的大数据和人工智能能不能帮助他们解决问题。
第二个挑战就是业务的增长,医院这些资源实际上今天还是有由政策去分配,就像是计划经济一样,各个医院的资源是有统一规划的,但这个规划未必适合当前市场。比如说某段时间爆发了某种疾病,就需要某种特别的药,但是医院其他科室可能用不着,可以在科室之间调拨。但是当规模成长起来后,资源往往没有办法满足情况下,只能干等着,没有一个弹性伸缩的能力。而互联网里面一些核心资源就是弹性伸缩的,可大可小可变,它是共享的。
而对于运营效率的提高,再给大家举个例子,比如说大家到医院里面去看病,看的时候只是知道脚疼,但是不知道挂什么科,可能就先挂一个骨科,骨科大夫说好像不是骨头的问题,查完他说你去挂个内科吧,然后内科一看是不是尿酸过多造成关节疼。这个还是简单的,有可能还会跑两三趟。所以这里面存在很多运营效率的问题,制度上来讲还有很多提升的空间的。大数据和人工智能怎么帮助医疗行业去完善这些,怎么去提升效率呢? 从概念上来讲,人工智能实际上是大数据领域里面的,其实对数据分析也好,智能化角度也好,人工智能更倾向于通过数据层面去学习人的思维。
举个例子说,医院中有各种各样的数据,其中有很多文本数据。而人工智能可以解决很多相关问题,比如说在文本上面举一个例子,很多医生把病人的诊疗信息或者病例表述都写成一句话,但真正要对这些数据进行处理的时候,要从这些话里面提取去关键信息,比如说脑卒中的例子,脑卒中死亡率是相对高的,复发率也是比较高,就医时间的效果差别很大。
在分析这个病例的时候,拿到医院数据一看全都没用的信息。怎么去分析这个数据呢?首先把文本中的东西提取出来,再结合与医生沟通,抽象出了就医时间和前期症状以及后遗症这三个维度,这三个维度的数据就需要从电子病例里面提取出来,提取的过程就需要阿里云输出的能力。提取文本信息的过程,比如把非文本结构化的数据进行输入,因为前期症状很重要,做需要一个形象的匹配,看到部分症状然后再进行学习,模式匹配再循环的一个过程,最后得到分析的模型。只需要从这三个维度去提取文本,然后再把这些文本做一个结构化梳理就可以,当然在这里说的比较简单,实际操作上还是比较复杂的。
从技术和架构上来讲,就是构建一个基础平台,在其上做一些业务应用,这个业务就是关键的技术处理了。比如用自然语意处理做分词,如何提取关键词,就像发热头疼是一个关键词,前面会不会有否定词,所以需要做一些聚类。所以首先会把语意部分理解出来,提取出相应的词,这部分词是归纳作为语意的,另外一部分是做机器学习。机器学习就是说在这个过程中反复进行训练,看上下文能不能表达准确的意思。再往上就是分析的业务,最后形成一个具体的业务应用,比如说病例的结构化分析,病症的分析。人工智能和大数据都是对任何行业都是一个辅助的作用,为什么这么讲,辅助其实是很关键的,比如今天客服的智能语音系统可以代替人工90%以上的工作量,就像今天支付宝的客服一样的。大部分是通过机器人是去做的,只有少量的部分是需要人去处理。所以讲任何人工智能都起到是辅助的作用。下图就是当时做文本分析最后得到一个成果。
第二个方面是在影像里面的应用,以前影像是专家来看的,他们通过经验去看结节是不是异常的。但是怎么样让普通的医生也具备这些能力呢?就通过机器去帮助他们。实际上机器开始是不会识别结节的。通过学习病人的CT片,形成专家模型来判断哪部分是结节。当然它也会分析图片里面带了症状,这个黑点或者白点,是不是代表结节。这个其实是很难去判定的,当然机器会经过大量的图片学习专门去做,并且去反复验证这个过程,让机器越来越精确,也会通过专家修正模型,在这个过程当中机器会越来越智能。通过系统学习就可以提升图像识别的效率。
还有一个就是视频处理,比方说住院看护大多数是通过体感特征监测器去判断这个病人是不是有病况。通过视频监控技术去判定病人这个阶段的表现,从外体特诊或者是本体特征对病人在视频里面的表现进行监控或是预测。 无论是在影像也好,视频也好,都会通过这种方式能够落地到医疗行业的场景,对整个行业效率进行提升。
影像分析识别搜索,就是这么一个大体的过程,比如病人曾经在这里面就诊过,病人再来的时候,系统通过人脸扫描一下就知道病人前期就诊的数据,产生一个综合的评定。同时会在线上做一些这样的架构,比如说在线搜索,可以直接搜索出这个病症跟其他病人症状是不是一样的,其他人是采用什么样的方案去救治的,这些都是通过离线模式或在线模式进行匹配的。离线模式的主要作用就是通过这些海量的数据不停的去训练,判断出每个病人是怎么样去做的,而在线模式检测就是进行相似度匹配。
在这个行业里面,构建通用的知识库未必是把数据拿出来研究这个病是怎么发展的,但是可能是关于大数据如何落地,怎么落地的。像刚才说的挂号可能会挂错,一开始你知道脚疼但是不知道挂什么科,这个过程就会很烦琐。而且每次就诊的信息是独立的,只有你自己知道,或者医生知道,但是相互之间是不知道的。而互联网核心就是共享。会把很多过程抽象化,比如说问诊、诊断、检验、治疗进行抽象化。智能问诊的过程,只要有这么一个知识库,病人去就告诉它脚疼,然后再进一步描述一下,知识库就建议去挂哪个科。知识库就是根据以往专家的建议提供就诊路线。这个知识库就是回答,某个症状应该去看什么科,光是这个智能分诊,就会使医院的效率提高不少。更进一步,在某些就诊方案里面,医生或专家是怎么做的,就像影像识别一样,专家是怎么识别的,如何判断结节,就可以建立一个知识库,就是人工智能。
知识库,比如像刚才讲的问答机器人,专家系统智能分诊,这些都是通过文本技术以及专家经验构建出来的。再举一个例子,比如说病人在找医生看病时,医生与病人之间的对话其实是没有记录的,记在电子病历中的东西一定是病人的症状和医嘱,实际上这个信息是不全面的。其实可以通过语音或者是视频把医生跟病人交流对话全程记录下来,转化成文本。比如说后面的病人只需要描述一下症状,系统就会提示,某某医生曾经给某个病人看过,给病人一个方案并且提示应该看什么科,而且这个准确率是越来越高。整个医疗行业里面,做智能分诊,健康咨询,健康咨询是一个道理。医疗共享就是说会分享就医经验,把医疗健康信息整合起来以后,通过就诊信息以及健康维护这些知识库形成一个问答系统让更多的人受益。
把医院里面专家的建议或者是医生救治的办法统筹起来形成一个知识库。
医疗设备也好,人的行为模式也好,都可以通过大数据方法去做的。在医疗行业里面能做的事情很多,其实刚才讲的这些无论是科研性质还是非科研性质,都是一些应用场景,这就是讲大数据如何落地人工智能。除此之外,比如说医院设备的监控,监控设备是不是要换,这些跟传统的制造行业差不多了,现在他们也有设备监控预警。
今天没有讲到具体的技术,而是更多的是通过从业务场景的角度去跟大家分享智慧医疗是怎么落地的。哪怕是今天只是在医疗行业做一个智能分层也好,语音识别也好,做一个视频监控和行为模式识别也好,病人的画像分析也好,这都是巨大的进步,都是将大数据落到实地,可能已经不知不觉地在大数据上产生了价值。我更多的是希望在阿里云通过这些顶层的技术输出与这些行业进行结合,产生效果。当然更多的是需要这些行业里面的专家,来跟阿里云结合,只有技术跟具体场景结合起来,才能产生有成效的结果,这也是也是我们今天唯一能够做的,也是未来的一个方向。