解锁机器学习隐藏的挑战:整合

自然语言处理技术 2018-06-29

点击上方关注,All in AI中国

最近的一项研究发现,使用机器学习的企业中,有48%的企业获得了最高的利润。

SAP和经济学人智库(EIU)最近的一项研究发现(https://news.sap.com/2018/04/sap-study-reveals-key-traits-of-machine-learning-leaders/),使用机器学习的企业中,有48%的企业获得了最高的收益。许多投资于机器学习技术的公司正处于这一过程的最初阶段,并开始他们的第一个项目或概念验证。在这个实施阶段,通常还没有出现数据集成是要克服的主要挑战。企业很快就会发现,为了在整个机器学习通信渠道中统一数据管理和安全概念,需要付出很多努力。如果一个组织有多个渠道需要协调并需要在不同渠道上进行沟通,那么这个问题就很复杂,需要解决。

解锁机器学习隐藏的挑战:整合

在开发机器学习平台时,成熟的生命周期管理和版本管理往往是具有挑战性的。机器学习带来的部分复杂性不仅仅是将更多的软件添加到企业中,而且会将不同的开发与数据科学和生命周期管理结合起来。机器学习平台必须支持端到端的生命周期模型,其中包括数据发现、特征工程、迭代模型开发、模型训练和模型评分等功能。除了管理经常用于重新训练机器学习模型的数据之外,组织还需要管理版本控制和身份管理、访问控制以及安全措施。

组织找到自己需要处理数据孤岛的原因

我们思考一个使用机器学习进行分析图像以获取客户洞察力的品牌。如果组织检测到40,000个图像,那么这不仅仅是一种需要接受训练的机器学习模型,而是很多。机器学习平台正在进行物体检测、图像分类等。进行此类分析的组织需要自定义实施,并且必须确保来自不同来源的数据可用。各种训练模式所需的数据可能来自不同的来源,有些来自公共资源,比如产品图像库,而其他来源可能来自内部系统、应用程序、网络或社交渠道。

解锁机器学习隐藏的挑战:整合

组织面临的各种数据来源面临的挑战是如何定义和协调所需的每一层。虽然有必要创建一个中央存储库来对齐所有数据,但这很难实现。为了实现这一点,组织必须找到一个可以引用所有数据的通用抽象层。为了使机器学习有效,确保所有渠道的数据连接至关重要。

如何巩固和驯服数据

随着大量机器学习数据的可用,组织需要确保信息安全且易于访问。在这些公司所处的环境中,他们可能会遇到有关如何实际使用某些数据的法律限制。例如,虽然可以合法地允许特定数据集进行预测,但将其用于机器学习模型的训练可能是非法的。如果数据被滥用,组织可能面临罚款或其他法律影响。

解锁机器学习隐藏的挑战:整合

限制也不局限在法律规定上,数据也有技术限制。例如,如果存在来自内部或外部数据的偏差,则确定的输出是不可靠的。虽然一些机器学习算法需要很多计算资源并运行在不同的云基础架构上,但其他的可以在本地部署。集成云部署和本地部署是两个复杂的系统挑战。但是,机器学习功能的消耗应该是无缝的,并且最终用户永远不会看到这种复杂情况。用户不应该意识到他们正在使用单独的系统,或者该功能是云服务。这里需要的整合是用户管理,在本地部署和云部署之间进行协调。

随着组织机构不断探索机器学习,重要的是要考虑如何解决集成挑战。即使他们不在最初的几个项目,随着更多的数据集被分析,他们将在未来构成障碍。尽管面临这些挑战,但应用机器学习显然是值得的。为了真正成功地进行机器学习,组织必须认识到它不是一个单一的步骤过程。 他们愿意踏上整个机器学习之旅去证明最有价值并产生最有意义的商业成果。

解锁机器学习隐藏的挑战:整合

相关推荐