[人工智能] 极限学习机

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 极限学习机 -> 正文阅读

[人工智能]极限学习机

前馈神经网络的缺陷

单隐含层前馈神经网络(single-hidden layer feedforward neural network, SLFN)以其良好的学习能力在许多领域广泛应用。然而传统的前馈神经网络大多采用梯度下降方法，该该方法具有一些固有的缺点：

训练速度慢，

由于梯度下降法需要多次迭代以达到修正权值和阈值的目的，因此训练过程耗时较长
容易陷入局部极小值点，无法达到全局最小
学习率 $\eta$ 的选择敏感

学习率 $\eta$ 对神经网络的性能影响较大，必须选择合适的 $\eta$ ，才能获得较为理想的网络。若 $\eta$ 太小，则算法收敛速度很慢，训练过程耗时较长；反之，若 $\eta$ 太大，则训练过程可能不稳定（收敛）

因此，需要探索一种训练速度快、获得全局最优解，且具有良好的泛化性能的训练算法提升前馈神经网络的性能

极限学习机

针对传统前馈神经网的缺陷，学者提出了极限学习机(extreme learning machine, ELM)，该算法随机产生输入层与隐含层间的连接权值及隐含层神经元的阈值，且在训练过程中无需调整，只需要设置隐含层神经元的个数，便可以获得唯一的最优解。

ELM既可以分类，也可以进行回归拟合

ELM的基本思想
典型的单隐含层前馈神经网络结构如下图：

该网络由输入层、隐含层和输出层组成，输入层与隐含层、隐含层与输出层神经元全连接。输入层有 $n$ 个神经元，对应 $n$ 个输入变量；隐含层有 $l$ 个神经元；输出层有 $m$ 个神经元，对应 $m$ 输出变量。

设输入层与隐含层间的连接权值矩阵 $\textbf{w}$ ， $w_{ji}$ 表示输入层第 $i$ 个神经元与隐藏层第 $j$ 个神经元间的连接权值；
设隐含层与输出层间的连接权值矩阵 $\bm\beta$ ， $\beta_{jk}$ 表示隐含层第 $j$ 个神经元与输出层第 $k$ 个神经元间的连接权值；
设隐含层神经元的阈值为 $\bm b$

设具有 $Q$ 个样本的训练集输入矩阵 $\bm X$ 和输出矩阵 $\bm Y$ 分别为

设隐含层神经元的激活函数为 $g (x)$ ，网络的输出 $\bm T$ 为

其中， $\bm w_i=[w_{i1}, w_{i2},\dots,w_{in}]$ ； $\bm x_j=[x_{1j},x_{2j},\dots,x_{nj}]^T$

上式可表示为： $\bm H\bm \beta=\bm T'$ ，
$\bm T'$ 为矩阵 $\bm T$ 的转置； $\bm H$ 称为神经网络的隐含层输出矩阵，具体形式为
ELM的学习算法

根据理论分析，ELM在训练之前可以随机产生 $\textbf{w}$ 和 $\bm b$ ，只需要确定隐含层神经元个数个数及隐含层神经元的激活函数（无限可微），即可计算出 $\bm \beta$ 。

ELM的学习算法主要有以下步骤：
- 确定隐含层神经元个数，随机设定输入层与隐含层间的连接权值 $\textbf{w}$ 和隐含层神经元的偏置 $\bm b$
- 选择一个无限可微的函数作为隐含层神经元的激活函数，进而计算隐含层输出矩阵 $\bm H$
- 计算输出层权值 $\bm \beta^*: \bm \beta=\bm H^+\bm T'$ ，其中， $\bm H^+$ 为隐含层输出矩阵 $\bm H$ 的Moore - Penrose广义逆