MIT、浙大等打造AutoML可视化工具:模型自选、超参数自调

wshyb0 2019-06-05

MIT、浙大等打造AutoML可视化工具:模型自选、超参数自调

【新智元导读】MIT、香港科技大学和浙江大学的研究人员开发了一种交互式工具,首次实现让用户对自动化机器学习(AutoML)系统的工作方式和流程进行查看和控制,提高系统定制化程度,向打开机器学习“黑盒子”的目标迈进了一大步。

为特定任务设计机器学习模型(如图像分类,疾病诊断和股市预测等)是一个艰巨而耗时的过程。研究人员首先要从多种不同的算法中进行选择来构建模型。然后在模型开始训练之前,手动调整“超参数”,确定模型的整体结构。

近期出现的自动机器学习(AutoML)系统可以对算法和超参数进行迭代式的测试和修改,并在此过程中选择最适合的模型。但系统的运行机制是不透明的,相当于一个“黑盒子”,也就是说系统选择了什么技术、什么模型,用户是看不见的。因此,用户就可能不信任模型给出的结果,而且很难根据自己的搜索需求来对系统进行定制。

定制化AutoML工具:模型自选,超参数自调

近日,在ACM CHI计算系统中人的因素会议上,麻省理工学院,香港科技大学和浙江大学的研究人员共同研发出一种工具,将AutoML方法的分析和控制权给到用户手中。

MIT、浙大等打造AutoML可视化工具:模型自选、超参数自调

该工具名为ATMSeer,它将AutoML系统、数据集和有关用户任务的一些信息作为输入,然后在用户友好型的界面内实现可视化搜索过程,界面中还能提供更多关于模型性能的深入信息。

“使用ATMSeer,用户可以自己选择和观察AutoML系统是如何工作的,”该研究论文的共同作者之一Kalyan Veeramachaneni说道,他是麻省理工学院信息与决策系统实验室(LIDS)的首席研究科学家,负责将数据引入AI团队。 “用户可以只选择一些性能最好的模型,或者结合其他因素或某些领域的专业知识,来指导AutoML系统去搜索某些特定模型。”

在对AutoML新手的案例研究中,研究人员发现大约85%使用ATMSeer的人对系统选择的模型充满信心。几乎所有参与者都表示,该工具让使用AutoML系统变得更舒服了。

ATMSeer会生成一个用户友好的界面,显示有关所选模型性能的深入信息,以及可调整的算法和参数的选项。

MIT、浙大等打造AutoML可视化工具:模型自选、超参数自调

ATMSeer自动机器学习定制化工具的用户友好型交互界面

“数据可视化是实现人与机器之间更好协作的有效方法。ATMSeer体现了这一理念,”论文合作者之一、香港科技大学的Wang Qianwen说。 “ATMSeer主要会让机器学习从业者受益,无论他们从事什么领域,专业水平如何,都能获益。ATMSeer可以缓解手动选择机器学习算法和调整超参数的不便。”

便捷可视化工具实现“可视即可调”

ATMSeer工具的核心是一款定制的AutoML系统,名为“自动调整模型”(ATM),由Veeramachaneni等研究人员在2017年开发。与传统的AutoML系统不同的是,ATM在尝试拟合模型时会对所有搜索结果进行完整的编目。

ATM将任何数据集和编码预测任务作为输入。系统随机选择算法类别,比如神经网络,决策树、随机森林和逻辑回归,并选择模型的超参数,如决策树的大小或神经网络层数等。

然后,系统针对数据集运行模型,迭代式调整超参数,并衡量模型性能。ATM利用掌握到了模型性能来选择另一个模型。最后,由系统针对任务输出几个表现最理想的模型。

诀窍在于,每个模型基本上可以被视为带有一系列变量的数据点:这里说的变量包含算法,超参数和性能。在此基础上,研究人员设计了一套系统,在指定的图形和图表上绘制数据点和变量。以此为起点,开发了一系列新技术,能够实时重新配置数据。 “亮点在于,使用这些工具,你能够可视化的任何东西,都可以修改。”史密斯说。

类似的可视化工具专门用于分析一种特定的机器学习模型,并能够在有限的搜索空间内实现定制化。“因此,这些工具可以为分析和观察AutoML的运行流程提供了有限的支持,还需要对许多搜索模型的配置进行分析。相比之下,ATMSeer支持分析使用各种算法生成的机器学习模型。”

将AutoML控制权交给用户,使用体验和信心明显提升

ATMSeer的可视化界面由三部分组成。用户可以通过控制面板上传数据集和AutoML系统,并启动或暂停搜索过程。下图是一个概览面板,显示了基本统计数据,如搜索的算法和超参数的数量,还有按降序排列的最佳模型的“排行榜”。Veeramachaneni表示:“如果你不是特别在意技术细节的专家,这可能是你最感兴趣的点。”

ATMSeer包含一个“AutoML Profiler”,其中的面板包含有关算法和超参数的深入信息,这些信息都可以进行调整。面板可以将所有算法类别表示为直方图形式,用条形图显示算法性能分数的分布,范围为0到10,具体取决于其超参数。用一个单独的面板呈现散点图,显示不同超参数和算法类型的性能折衷。

对没有AutoML经验的机器学习专家的案例研究表明,让用户掌握控制权确实有助于提高AutoML应用的性能和效率。对生物学、金融等不同科学领域的13位研究生的研究也表明,确定用户对AutoML的搜索的自定义关键有三点:搜索的算法数量、系统运行时间以及查找表现最好的模型。研究人员表示,这些信息可用来为用户量身定制系统。

研究人员表示,目前对AutoML的应用缺乏足够的灵活性。“现在所有这些信息都集中在一个地方,如果人们能够清楚看到幕后发生的事情,有能力控制这些流程,未来对AutoML的应用将跨入一个崭新的阶段。”

参考链接:

https://techxplore.com/news/2019-06-black-automated-machine.html

论文链接:

https://arxiv.org/pdf/1902.05009.pdf

相关推荐