[人工智能] 训练神经网络的详细步骤如何训练一个神经网络

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 训练神经网络的详细步骤如何训练一个神经网络 -> 正文阅读

[人工智能]训练神经网络的详细步骤如何训练一个神经网络

如何训练神经网络

1、先别着急写代码训练神经网络前，别管代码，先从预处理数据集开始。我们先花几个小时的时间，了解数据的分布并找出其中的规律。

Andrej有一次在整理数据时发现了重复的样本，还有一次发现了图像和标签中的错误。所以先看一眼数据能避免我们走很多弯路。

由于神经网络实际上是数据集的压缩版本，因此您将能够查看网络（错误）预测并了解它们的来源。如果你的网络给你的预测看起来与你在数据中看到的内容不一致，那么就会有所收获。

一旦从数据中发现规律，可以编写一些代码对他们进行搜索、过滤、排序。把数据可视化能帮助我们发现异常值，而异常值总能揭示数据的质量或预处理中的一些错误。

2、设置端到端的训练评估框架处理完数据集，接下来就能开始训练模型了吗？并不能！下一步是建立一个完整的训练+评估框架。在这个阶段，我们选择一个简单又不至于搞砸的模型，比如线性分类器、CNN，可视化损失。

获得准确度等衡量模型的标准，用模型进行预测。这个阶段的技巧有：· 固定随机种子使用固定的随机种子，来保证运行代码两次都获得相同的结果，消除差异因素。· 简单化在此阶段不要有任何幻想，不要扩增数据。

扩增数据后面会用到，但是在这里不要使用，现在引入只会导致错误。

· 在评估中添加有效数字在绘制测试集损失时，对整个测试集进行评估，不要只绘制批次测试损失图像，然后用Tensorboard对它们进行平滑处理。· 在初始阶段验证损失函数验证函数是否从正确的损失值开始。

例如，如果正确初始化最后一层，则应在softmax初始化时测量-log(1/n_classes)。· 初始化正确初始化最后一层的权重。如果回归一些平均值为50的值，则将最终偏差初始化为50。

如果有一个比例为1:10的不平衡数据集，请设置对数的偏差，使网络预测概率在初始化时为0.1。正确设置这些可以加速模型的收敛。· 人类基线监控除人为可解释和可检查的损失之外的指标。

尽可能评估人的准确性并与之进行比较。或者对测试数据进行两次注释，并且对于每个示例，将一个注释视为预测，将第二个注释视为事实。

· 设置一个独立于输入的基线最简单的方法是将所有输入设置为零，看看模型是否学会从输入中提取任何信息。· 过拟合一个batch增加了模型的容量并验证我们可以达到的最低损失。

· 验证减少训练损失尝试稍微增加数据容量。

谷歌人工智能写作项目：神经网络伪原创

深度神经网络是如何训练的？

Coursera的Ng机器学习，UFLDL都看过好文案。没记错的话Ng的机器学习里是直接给出公式了，虽然你可能知道如何求解，但是即使不知道完成作业也不是问题，只要照着公式写就行。

反正我当时看的时候心里并没能比较清楚的明白。我觉得想了解深度学习UFLDL教程 - Ufldl是不错的。有习题，做完的话确实会对深度学习有更加深刻的理解，但是总还不是很清晰。

后来看了Li FeiFei的Stanford University CS231n: Convolutional Neural Networks for Visual Recognition，我的感觉是对CNN的理解有了很大的提升。

沉下心来推推公式，多思考，明白了反向传播本质上是链式法则(虽然之前也知道，但是当时还是理解的迷迷糊糊的)。所有的梯度其实都是对最终的loss进行求导得到的，也就是标量对矩阵or向量的求导。

当然同时也学到了许多其他的关于cnn的。并且建议你不仅要完成练习，最好能自己也写一个cnn，这个过程可能会让你学习到许多更加细节和可能忽略的东西。

这样的网络可以使用中间层构建出多层的抽象，正如我们在布尔线路中做的那样。

例如，如果我们在进行视觉模式识别，那么在第一层的神经元可能学会识别边，在第二层的神经元可以在边的基础上学会识别出更加复杂的形状，例如三角形或者矩形。第三层将能够识别更加复杂的形状。依此类推。

这些多层的抽象看起来能够赋予深度网络一种学习解决复杂模式识别问题的能力。然后，正如线路的示例中看到的那样，存在着理论上的研究结果告诉我们深度网络在本质上比浅层网络更加强大。

如何训练神经网络去掉初值的影响 30

初值一般影响不大，你可以使用rands函数来初始化，这个函数是专门初始化神经网络权值和阈值的，效果比randn、rand函数好得多。

如果要加速网络收敛速度，可以用遗传算法或粒子群算法等优化算法先行训练，再用这些先验知识初始化权值矩阵，已有文献表明确实训练效果较好一些。

遗传算法的基本运算过程如下（如果训练神经网络最好用实数编码）：a)初始化：设置进化代数计数器t=0，设置最大进化代数T，随机生成M个个体作为初始群体P(0)。

b)个体评价：计算群体P(t)中各个个体的适应度。c)选择运算:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。

选择操作是建立在群体中个体的适应度评估基础上的。d)交叉运算：将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。e)变异运算：将变异算子作用于群体。

即是对群体中的个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。

f)终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出，终止计算。给你上传个经典源码，里面有一个案例就是用GA优化NN初始权值的。

什么神经网络训练学习？学习有哪几种方式？

如何训练自己的神经网络权重

说的确定应该就是训练方法吧，神经网络的权值不是人工给定的。

而是用训练集（包括输入和输出）训练，用训练集训练一遍称为一个epoch，一般要许多epoch才行，目的是使得目标与训练结果的误差(一般采用均方误差）小到一个给定的阈值。

以上所说是有监督的学习方法，还有无监督的学习方法。

MATLAB BP神经网络训练 30

你的程序训练完毕后根本就没达到目标误差，就是说训练效果不好，不能进行预测，只有训练结果好了才能预测仿真，你再改一下隐含层神经元数或者训练和传递函数试试吧~另外输入层的值可以归一化也可以不归一化，归一化后在仿真之前要反归一化。

BP神经网络方法

人工神经网络是近几年来发展起来的新兴学科，它是一种大规模并行分布处理的非线性系统，适用解决难以用数学模型描述的系统，逼近任何非线性的特性，具有很强的自适应、自学习、联想记忆、高度容错和并行处理能力，使得神经网络理论的应用已经渗透到了各个领域。

近年来，人工神经网络在水质分析和评价中的应用越来越广泛，并取得良好效果。在这些应用中，纵观应用于模式识别的神经网络，BP网络是最有效、最活跃的方法之一。

BP网络是多层前向网络的权值学习采用误差逆传播学习的一种算法（Error Back Propagation，简称BP）。在具体应用该网络时分为网络训练及网络工作两个阶段。

在网络训练阶段，根据给定的训练模式，按照“模式的顺传播”→“误差逆传播”→“记忆训练”→“学习收敛”4个过程进行网络权值的训练。

在网络的工作阶段，根据训练好的网络权值及给定的输入向量，按照“模式顺传播”方式求得与输入向量相对应的输出向量的解答（阎平凡，2000）。

BP算法是一种比较成熟的有指导的训练方法，是一个单向传播的多层前馈网络。它包含输入层、隐含层、输出层，如图4-4所示。

图4-4 地下水质量评价的BP神经网络模型图4-4给出了4层地下水水质评价的BP神经网络模型。同层节点之间不连接。

输入信号从输入层节点，依次传过各隐含层节点，然后传到输出层节点，如果在输出层得不到期望输出，则转入反向传播，将误差信号沿原来通路返回，通过学习来修改各层神经元的权值，使误差信号最小。

每一层节点的输出只影响下一层节点的输入。

每个节点都对应着一个作用函数（f）和阈值（a），BP网络的基本处理单元量为非线性输入-输出的关系，输入层节点阈值为0，且f（x）=x；而隐含层和输出层的作用函数为非线性的Sigmoid型（它是连续可微的）函数，其表达式为f（x）=1/（1+e-x）（4-55）设有L个学习样本（Xk，Ok）（k=1，2，…，l），其中Xk为输入，Ok为期望输出，Xk经网络传播后得到的实际输出为Yk，则Yk与要求的期望输出Ok之间的均方误差为区域地下水功能可持续性评价理论与方法研究式中：M为输出层单元数；Yk，p为第k样本对第p特性分量的实际输出；Ok，p为第k样本对第p特性分量的期望输出。

样本的总误差为区域地下水功能可持续性评价理论与方法研究由梯度下降法修改网络的权值，使得E取得最小值，学习样本对Wij的修正为区域地下水功能可持续性评价理论与方法研究式中：η为学习速率，可取0到1间的数值。

所有学习样本对权值Wij的修正为区域地下水功能可持续性评价理论与方法研究通常为增加学习过程的稳定性，用下式对Wij再进行修正：区域地下水功能可持续性评价理论与方法研究式中：β为充量常量；Wij（t）为BP网络第t次迭代循环训练后的连接权值；Wij（t-1）为BP网络第t-1次迭代循环训练后的连接权值。

在BP网络学习的过程中，先调整输出层与隐含层之间的连接权值，然后调整中间隐含层间的连接权值，最后调整隐含层与输入层之间的连接权值。实现BP网络训练学习程序流程，如图4-5所示（倪深海等，2000）。

图4-5 BP神经网络模型程序框图若将水质评价中的评价标准作为样本输入，评价级别作为网络输出，BP网络通过不断学习，归纳出评价标准与评价级别间复杂的内在对应关系，即可进行水质综合评价。

BP网络对地下水质量综合评价，其评价方法不需要过多的数理统计知识，也不需要对水质量监测数据进行复杂的预处理，操作简便易行，评价结果切合实际。

由于人工神经网络方法具有高度民主的非线性函数映射功能，使得地下水水质评价结果较准确（袁曾任，1999）。

BP网络可以任意逼近任何连续函数，但是它主要存在如下缺点：①从数学上看，它可归结为一非线性的梯度优化问题，因此不可避免地存在局部极小问题；②学习算法的收敛速度慢，通常需要上千次或更多。

神经网络具有学习、联想和容错功能，是地下水水质评价工作方法的改进，如何在现行的神经网络中进一步吸取模糊和灰色理论的某些优点，建立更适合水质评价的神经网络模型，使该模型既具有方法的先进性又具有现实的可行性，将是我们今后研究和探讨的问题。

如何使用tensorflow构建，训练和改进循环神经网络

我们利用 TensorFlow 提供的 tf.train.AdamOptimizer 来控制学习速度。

AdamOptimizer 通过使用动量（参数的移动平均数）来改善传统梯度下降，促进超参数动态调整。

我们可以通过创建标签错误率的摘要标量来跟踪丢失和错误率：# Create a placeholder for the summary statisticswith tf.name_scope("accuracy"):# Compute the edit (Levenshtein) distance of the top pathdistance =tf.edit_distance((self.decoded[0], tf.int32), self.targets)# Compute the label error rate (accuracy) =tf.reduce_mean(distance, name='label_error_rate')_placeholder =tf.placeholder(dtype=tf.float32, shape=[])self.train_ler_op =tf.summary.scalar("train_label_error_rate", _placeholder)self.dev_ler_op =tf.summary.scalar("validation_label_error_rate", _placeholder)self.test_ler_op =tf.summary.scalar("test_label_error_rate", _placeholder)如何改进 RNN现在我们构建了一个简单的 LSTM RNN 网络，下一个问题是：如何继续改进它？

幸运的是，在开源社区里，很多大公司都开源了自己的最新语音识别模型。

在 2016 年 9 月，微软的论文《The Microsoft 2016 Conversational Speech Recognition System》展示了在 NIST 200 Switchboard 数据中单系统残差网络错误率 6.9% 的新方式。

他们在卷积+循环神经网络上使用了几种不同的声学和语言模型。

微软的团队和其他研究人员在过去 4 年中做出的主要改进包括：在基于字符的 RNN 上使用语言模型使用卷积神经网络（CNN）从音频中获取特征使用多个 RNN 模型组合值得注意的是，在过去几十年里传统语音识别模型获得的研究成果，在目前的深度学习语音识别模型中仍然扮演着自己的角色。

修改自: A Historical Perspective of Speech Recognition, Xuedong Huang, James Baker, Raj Reddy Communications of the ACM, Vol. 57 No. 1, Pages 94-103, 2014训练你的第一个 RNN 模型在本教程的 Github 里，作者提供了一些介绍以帮助读者在 TensorFlow 中使用 RNN 和 CTC 损失函数训练端到端语音识别系统。

大部分事例数据来自 LibriVox。

数据被分别存放于以下文件夹中：Train: train-clean-100-wav (5 examples)Test: test-clean-wav (2 examples)Dev: dev-clean-wav (2 examples)当训练这些示例数据时，你会很快注意到训练数据的词错率（WER）会产生过拟合，而在测试和开发集中词错率则有 85% 左右。

词错率不是 100% 的原因在于每个字母有 29 种可能性（a-z、逗号、空格和空白），神经网络很快就能学会：某些字符（e，a，空格，r，s，t）比其他的更常见辅音-元音-辅音是英文的构词特征MFCC 输入声音信号振幅特征的增加只与字母 a-z 有关。