dustinsea 2018-03-04
第90届奥斯卡颁奖典礼即将开始,十分令人期待。不仅在好莱坞,而且在美国乃至全球各地都将关注哪部影片获得最佳影片。Thinkful决定利用机器学习、数据科学的力量来挑选胜利者。
Thinkful使用监督式学习在过去的结果中建模,以预测未来的模式,即今年获奖的影片。Thinkful团队的Adam Levenson表示,通过收集和清理大量数据来预测今年最佳影片获胜者。从评论家到演员,Thinkful会搜索任何和所有公开提供的有关在过去n年中被提名为最佳影片的电影的信息。这些数据将有助于告诉他们使用SciKit Learn构建算法。
SciKit Learn是一个开源工具,是全球最流行的学习工具包之一,用于在NumPy,SciPy和matplotlib上构建Python的机器学习。
Levenson指出,通过评估多个模型,我们确定随机森林分类为以前的奥斯卡获奖者提供了最准确的预测。随机森林分类是一种机器学习方法,通过创建和评估决策树来确定变量之间的关系。
作为一种机器学习方法,虽然并不是特别流行,但随机森林分类经受了时间的考验,它被用于地震预测,建模识别汽车司机等。
奥斯卡2018年预测使用了以下决策树对9个提名的最佳影片应用一系列是/否问题:
Levenson强调,随机森林分类器算法认识到,随着决策树变得越来越复杂,他们倾向于选择细微差别,并在被称为捕获噪音或过度拟合的过程中创建随机性规则。因此,随机森林不是制造大型复杂树,而是制造许多小树,并且变化很小,这使我们能够找到更高层次,更一般化的规则。在过去38年中应用于奥斯卡获奖者和失败者时,这种方法在2017年的所有时间段之外的所有时间都做出了正确的预测。
如果你想知道机器学习预测结果话?请查看图表,看看谁是领先的最佳影片,《水形物语》的可能性为0.47。《三块广告牌》有0.28的获胜概率。