数据科学的现在与未来

数据科学是截至近年来技术领域中很具热度的方向之一。如果您拥有数据科学或者相关专业的工作经验及学位，那么只要大笔一挥、简历一发，一份薪酬可观的职位就会应手而得。但是，数据科学家能成为AI领域的长青树吗?或者说，几年之后围绕数据科学出现的这股热流终将消退?

数据科学的现在与未来

在日前的AI播客中，Dun & Bradstreet公司高级副总裁兼首席数据科学家Anthony Scriffignano分享了自己作为数据科学从业者的工作状态，以及人工智能如何改变金融行业的前景、经历与见解。

数据科学的当前定位

在Dun & Bradstreet公司，Scriffgnano主要负责技术创新与开发工作，同时也管理着“世界上规模最大的同类商业数据库”项目。Scriffignano解释道，这套前所未有的数据库持续从全球各个国家(除朝鲜与古巴之外)收集大量数据，日均摄取达数百万次。

这套数据库融合了每一种语言与写入系统，而且由七套不同的集成化数据库共同组成。这一综合性数据系统在跟踪企业数据的同时，亦会对总体风险及发展机遇做出全球性观察分析。以此为基础，该数据库得以实现大规模数据分析，进而检测供应链异常以及客户购买行为中发生的变化。毫无疑问，要从如此庞大的信息库当中提取价值，数据科学将成为我们不可或缺的关键武器。

对于像Dun & Bradstreet这样的组织来说，最大的挑战之一在于如何寻找经验丰富的数据科学家，保证这些既拥有从业背景、又颇具实践经验的人才处理如此巨大的研究数据集。遗憾的是，目前的人才市场还无法满足他们对于数据科学技能的需求。

Scriffignano表示，他相信AI技术正在快速发展，并必将在未来逐渐取代熟练的数据科学家，进而实现技术本身的普遍化与大众化。在Scriffignano看来，成为一名成熟数据科学家所需要的技能，在范围与深度方面都要远远超过机器学习模型开发者。从本质上讲，真正的数据科学家需要专注于立足更广泛的问题从数据中提取价值;相比之下，目前很多自称数据科学家的从业者实际上更像是机器学习工程师，也更多关注机器学习模型开发方面的工作。

Scriffignano认为，我们需要更多关注数据科学家概念中的“科学家”部分。在他看来，数据科学家必须有能力从观察到的数据中提出新的问题或者理论，对这一理论进行实验设计与具体测试，而后得出结论并分享相关结果。Scriffignano注意到，大多数组织只要求数据科学家给出可重复使用的模型，他强调只有将数据科学家视为改进与创新工作中的关键，才能帮助组织迈向成功。他还指出，正是由于不愿放权让数据科学家们接触单纯模型开发之外的新领域，才导致众多组织长期无法真正在数据科学与AI技术领域取得进展。

挑战：治理与伦理

除了从大数据集中获取价值的问题之外，Scriffignano认为，人工智能与数据科学还面临着来自治理与伦理层面的诸多挑战。这一点在涉及个人信息时体现得尤其明显。在建立大型数据库并使用私人信息建立智能模型时，我们该如何保证以负责任的方式使用这些私人信息?

目前世界各国之所以开始以愈发严格的态度审查机器学习模型，一部分原因就是这类模型往往涉及大量隐私性与安全性因素。无论模型关注哪些具体特征，隐私与安全都已经成为无法回避的现实问题。Scriffignano提出一个有趣的观点，认为AI法规终将陷入为了满足需求而努力迎合所有人、又为了迎合所有人而产生更多需求的怪圈或者说泥潭。人们希望进一步提升模型的自定义空间与开发开放式，但又不愿意在隐私权方面做出妥协。

一部分企业与个人将从使用大量数据的模型当中受益，这些模型需要庞大的数据基础以做出更精确的预测，但这同时也将以获取大量私人信息为代价。有些人可能不希望自己的数据被囊括在这些模型当中，而这又反过来导致模型的精度有所下降。结果就是，面对机器学习模型的发展与所需数据量的扩展，总会有人对现状感到不满。

Scriffignano坚信，政府监管机构如果希望在保障国家安全的同时回避与隐私相关的问题，那么最好的办法是对技术发展抱有开放的态度。在世界上的不同地区，法律与法规的制定与细则总会存在很大差异，不同司法管辖区间对于道德伦理的认识同样可能不太一致。这种现象目前已经体现得相当明确：欧洲在道德伦理方面约束得最为严格，中国对隐私保护的关注度不高，而美国则处于二者之间。某些国家更希望强调隐私保护，而另一些国家则更重视国家安全或者经济发展。

正如Scriffignano所提到，其中的核心问题是，机器学习本身并不存在地理界限。在某个区域内完全不可接受的实践，在另一个地区则可能并无不妥。因此，模型的构建位置与使用位置也可以据此有所区分。毕竟模型的传播往往很难控制，所以这种低隐私要求区域生产、高隐私要求区域消费的作法很可能成为未来的通行方案。

数据科学的现在与未来

相关推荐