2.2 统计学习理论

2.2.1 统计学习理论的概念

统计学习理论(Statistical Learning Theory,SLT)由Vapnik于20世纪60年代开始研究并提出,与传统的统计学理论不同,它是一种针对小样本情况下机器学习估计和预测的理论[28]。SLT将函数集构造为一个函数子集序列,使各个子集按照VC维(Vapnik-Chervonenkis dimension)的大小排列,在每个子集中寻找最小经验风险,在子集间折中考虑经验风险和置信范围,取得实际风险的最小值,又称为结构风险最小化(Structural Risk Minimization,SRM),同时SLT也发展了一种新的学习算法——SVM[22]

2.2.2 VC维和SVM

SVM是建立在SLT基础上的学习算法,能够通过求解一个凸二次规划问题得到全局最优解。SVM的主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。

SLT对于机器学习算法在学习过程中所具有的一致收敛的速度和泛化性进行了定义,从而产生了一些有关函数集性能的指标,其中最为关键的就是VC维。VC维表征了在一个函数指标集内函数所能够分离的最大样本数,VC维越大,则机器学习的复杂度越高。

考虑训练样本978-7-111-64191-9-Part01-14.jpg,其中xi为第i个样本,yi∈{-1,+1}。设分离超平面方程为

978-7-111-64191-9-Part01-15.jpg

式中 ω——超平面的法向量;

b——超平面的常数项。超平面是比原特征空间少一个维度的子空间。设最优分类超平面为

978-7-111-64191-9-Part01-16.jpg

支持向量即为满足下列条件的样本点(xiyi):

978-7-111-64191-9-Part01-17.jpg

由图2-1可见,支持向量是最靠近决策面的数据点,虚线表示分类超平面。

978-7-111-64191-9-Part01-18.jpg

图2-1 支持向量和分类超平面

定义正负两类样本任意各一个支持向量为x1x2,则可得间隔为

978-7-111-64191-9-Part01-19.jpg

这样就可以得出,寻找最优超平面最终可归结为求一个二次规划问题:

978-7-111-64191-9-Part01-20.jpg

978-7-111-64191-9-Part01-21.jpg

利用拉格朗日乘数法可得

978-7-111-64191-9-Part01-22.jpg

式中 ai——非负变量,称为拉格朗日乘子。

ωb求偏δ导,有

978-7-111-64191-9-Part01-23.jpg

最终可得到二次规划问题的对偶问题

978-7-111-64191-9-Part01-24.jpg

978-7-111-64191-9-Part01-25.jpg

由于线性约束的凸二次规划问题存在唯一解,函数Qa)的最大值仅依赖于样本点的集合978-7-111-64191-9-Part01-26.jpg,此时原问题的最优解为

978-7-111-64191-9-Part01-27.jpg

即可得到决策函数为

978-7-111-64191-9-Part01-28.jpg

式中 x——待预测数据集中的样本;

978-7-111-64191-9-Part01-29.jpg——最优解所对应的ai值。

2.2.3 Mercer定理和软间隔分离

通常情况下样本数据存在噪声值,而且并不能简单地用超平面直接划分出来,为了解决离群噪声和线性不可分的状况,就需要用到核函数和软间隔分离器。

数据集特征如果是线性可分的,就能实现全部样本点的正确分离,即条件yiω·xi+b)≥1,但现实情况下因采集的数据并不能达到最为理想的状况,通常是非线性不可分的,即不存在超平面能够将样本分离,故可通过非线性变换将其映射到高维空间中,如图2-2所示。

978-7-111-64191-9-Part01-30.jpg

图2-2 低维空间映射到高维空间

令式(2-16)变换为

978-7-111-64191-9-Part01-31.jpg

978-7-111-64191-9-Part01-32.jpg

式中

978-7-111-64191-9-Part01-33.jpg

定义978-7-111-64191-9-Part01-34.jpg为核函数。这样就实现了将训练数据样本xi从低维到高维的映射。

Mercer定理是保证核函数Kxixj)一致收敛(某特征空间中内积运算)的充分必要条件,即对于任意有限子集x∈{x1x2,…,xi},矩阵

978-7-111-64191-9-Part01-35.jpg

半正定,或∀fx)∈lx),有

978-7-111-64191-9-Part01-36.jpg

由于寻找最大化间隔分类超平面时要考虑异常值的可能,故针对离群样本点,可以定义松弛变量ξ来处理,并对其加以限制,在最小化函数中加入一个惩罚参数C衡量分类器的鲁棒性能,即

978-7-111-64191-9-Part01-37.jpg

978-7-111-64191-9-Part01-38.jpg

C值较大时,对于离群样本点较敏感,即形成过学习状态;当C∈0时,则会忽略离群样本点的影响,对学习结果会造成很大的误差,即欠学习状态,故需要对松弛变量ξ和惩罚参数C进行多次的尝试,以便求得一个最优的结果。

2.2.4 RBF神经网络

针对光伏发电功率预测模型的搭建,本部分考虑到RBF神经网络具有能够逼近任意非线性函数,良好的泛化能力,且学习收敛速度快的优点,故最终采用RBF神经网络,其结构如图2-3所示。

978-7-111-64191-9-Part01-39.jpg

图2-3 RBF神经网络构造图

设输入层个数为m,隐含层包括h个隐含层神经元和一个偏置神经元,输出层个数为m,则输入权值为一组h×m型全1矩阵,隐含层由一组RBF构成,通常采用高斯核函数:exp(-d2/(2σ2)),网络的输入与输出之间存在着映射关系。

网络中神经元个数和函数中心需要在建立模型前确定,本部分规定神经元个数等于模型训练样本个数,并采用2.1节所述聚类算法确定函数的中心;方差978-7-111-64191-9-Part01-40.jpg(978-7-111-64191-9-Part01-41.jpg为选取中心点之间的最大距离)。输出层权值和隐含层偏置则需要不断地训练和学习迭代,从而达到较为理想的状态。