独家干货 ——证券行业数据治理与应用探讨

xiaoxiaoCNDS 2016-11-30

本讲座选自证标委数据模型专业工作组首席专家谢晨于2016年11月6日在首届中国数据标准化及治理大会暨清数DAMA揭牌仪式上所做的题为《证券行业数据治理与应用探讨》的演讲。

独家干货 ——证券行业数据治理与应用探讨

我叫谢晨,我的演讲分三块内容:第一块与大家交流证券期货行业的数据治理的现状以及我们的措施;第二块重点向大家介绍行业和证券公司数据模型和逻辑模型的方法论和实施步骤;第三块探讨当前部分证券公司在数据应用和实践领域具体的案例。

独家干货 ——证券行业数据治理与应用探讨

一、证券期货行业数据治理

独家干货 ——证券行业数据治理与应用探讨

在证券期货行业中,累计的数据量有4PB,委托有3.5亿笔。我们比较了这个行业的数据和大数据。从共性来说,我们都是PB级的,甚至更大规模的数据。但两者的差异也很大。证券期货行业的数据类型和现在所谓大数据的数据类型不完全一样。从数据类型看,大数据概念下的数据类型,是以非结构化、半结构化的数据为主,包括文件、影像、日志等,而证券期货行业是以传统的结构化数据为主。从价值密度来看,大数据的价值密度比较低,而证券期货行业数据的价值密度是非常高的。从数据处理速度来看,对处理速度要求很高,而对我们行业的数据处理速度要求更高,要非常快,因为它要支持整个交易和清算业务的正常运行。尤其是一些快速交易、高频交易,对数据处理和分析的要求是非常高的。从交互来看,传统大数据包含的大多是企业内部数据,以及一些网上个人数据,而证券期货行业数据基本上会形成主营业务的闭环,每一项业务、每一个数据的形成和运用都需要在多个企业间进行数据的交换。很难说一个企业从数据的生产、应用、运算到最后推广都能自己完成。因为证券行业的业务就是分散在不同机构内来分别完成的:中介机构负责交易撮合、监管机构负责信息披露等,各自完成一部分工作。因此数据交换的工作在我们这个行业内非常重要。我们行业内的核心机构有19家,中介机构有三大类,加起来有400多家。

独家干货 ——证券行业数据治理与应用探讨

现在整个行业也面临着很多数据方面的问题。从数据的生成、交换、应用来看,我们面临着三大类的问题。(1)从数据的生成来看,我们的基础业务数据定义冲突较多,因为数据生成是来自不同机构,定义往往是以机构为单位。(2)从交换来看,因为我们的业务是跨机构的,数据的交换需求很大,但数据标准的定义各有不同,不同的公司对同一类业务有自己的数据交换标准,整个行业缺少统一的标准。(3)从应用来看,我们也缺少一个行业数据的脉络图,很难有人能说清楚我们这个行业一共有多少数据、数据的来龙去脉到底是什么。因此我们提出了解决思路。从基础数据的定义较多来讲,要采取明确数据元素的定义,把元数据管理做好。从接口不统一来讲,要规范接口,形成行业接口标准,减少歧义。从应用来讲,我们要形成一套可追溯的、整个行业生成、存储、交换的数据脉络图。

独家干货 ——证券行业数据治理与应用探讨

为了做好这项工作,整个行业也搭建了行业数据治理的工作组。简单给大家介绍工作组的分工。我们成立了一个行业数据治理的委员会,它负责两块工作,一块是行业数据模型的制定工作,另一块是治理的工作。也就是说,一个是制定标准的工作,另外一个根据这个标准来管数据的。工作组下面形成了五个工作组。

第一项工作是行业基础编码工作组。每个企业都编了很多码,客户编码、部门编码、业务编码、产品编码,但不同企业编码标准不同,它们在行业之间很难管控。因此我们第一步就要把整个行业的编码统一起来。

第二项工作,成立了行业数据模型组,这也是我现在重点负责的工作。行业数据模型就是要把整个行业数据的标准制定出来,然后根据交易、监管、披露三个方向建立标准化的模型。从其他行业来看,交易相当于是内部业务开展的数据,监管相当于风险控制,披露相当于对外公开的信息。

第三项工作是制定机构之间的数据交换标准。机构之间交互很多,每一项业务完成要跨很多机构,因此需要专门制定机构间数据交换的标准。

第四项工作是制定机构内的数据交换标准。如果机构内的数据交换不标准化,那就意味着机构内部的系统仅仅是耦合,松耦合、模块化,这会面临非常多的困难,因此机构内的数据也要进行标准化。

第五项工作是信息披露。证券行业的一大特点是,要向公众披露信息...

更多完整图文内容,请关注清华大学数据科学研究院和清华大数据产业联合会官方微信公众号“THU数据派”(ID:datapi)

相关推荐