卖小孩的咖啡 2020-03-23
实质理解:
训练过程:
CNN在做卷积的时候,每一层的输出(可理解为形成的高维特征向量)是通过卷积的前向传播算法和反向传播算法(也就是梯度下降算法),结合真实的标签(前向传播结果与真实标签做误差),
将前向传播的结果无限逼近具有真实标签,在此过程中不断的更新权重,形成具有真实标签类别信息的权重矩阵。
预测过程:
利用训练高的权重矩阵去计算预测的输入数据,并产生一个结果,这个结果就是预测数据的类别或预测值。
理解:
从上述过程中可以得到以下结论:
预测过程----->就是为了得到适合该类数据的权重矩阵
预测过程----->利用得到的权重矩阵去计算预测结果
进一步说明:求解权重矩阵的过程与具体用什么神经网络模型结构没什么关系,任何的神经网络模型都可以用来求解这个权重矩阵,关键的问题在于,有些网络的参数过多,不好训练,或者根本训练不了,不收敛或者过拟合,导致最终的精度不够。
所以模型的选择在于易训练的网络模型结构即可;理论上说网络越深,效果越好。但是容易过拟合。
所以可以根据数据的特点来选择模型结构、CNN或RNN,卷积核心是正方形或者其他形状的。如图像数据,用CNN训练,模型可用LeNet,VGG,ResNet,GoogleNet等,文本数据可用CNN,RNN,LSTM等。上述模型各有特点,主要还是在卷积核心
和训练参数数目上的优化。还有更多的模型,可自行查阅。