自然语言处理技术 2018-10-09
在这篇文章中,您将了解可用于为您的机器学习问题选择正确的机器学习算法的技巧和技巧。这些对于数据科学家或ML研究人员开始学习数据科学/机器学习主题非常有用。
基于以下内容,可以选择不同类别的机器学习算法来训练模型。
这篇文章讲述了在以下不同的场景,同时解释了机器学习算法,可以用来解决相关问题:
对于具有大量特征但数据量较少的情况,可以使用以下某些机器学习算法:
大量的特征通常会导致模型过度拟合。因此,在这种情况下的关键练习之一是执行以下一项或两项:
您可以找到大量特征但数据量较少的示例之一是蛋白质与蛋白质的相互作用。在蛋白质与蛋白质的相互作用中,特征的数量可以是数百万,但样本大小可以是数千。
少量特征,大量数据
对于特征数量较少但数据量较大的场景,可以选择以下某些机器学习算法:
大数据的例子可以包括微阵列(基因表达数据)、蛋白质组学、脑图像、视频、特征数据、纵向数据、高频金融数据、仓库销售等。
大量特征,大量数据
对于具有大量特征和大量数据的场景,主要关注点是数据处理和训练/测试模型的计算成本。以下代表了在构建模型时可用于处理大量功能和相关数据集的一些技术:
一旦处理了与大量特征或大量数据集相关的方面,就可以适当地使用如上所述的不同算法。
总结
在这篇文章中,您了解了不同机器学习算法的选择标准以及基于许多特征和数据量的适当数据处理技术。对于大量的特征和较小的数据量,可以选择SVM、套索回归方法、逐步方法等算法。对于较少数量的特征和较大量的数据,可以选择GLM、深度学习算法、集合方法等。对于更大量的特征和数据,首先,建议将特征数量减少到最重要的特征,其次,使用子采样技术来节省计算成本。然后可以应用本文中描述的适当的ML算法。