线性回归方程内容
线性回归方程
内容
线性回归方程内容
线性回归方程
内容
我们以一简单数据组来说明什么是线性回归.假设有一组数据型态为y=y(x),其中
x={0,1,2,3,4,5},y={0,20,60,68,77,110}
如果我们要以一个最简单的方程式来近似这组数据,则非一阶的线性方程式莫属.先将这组数据绘图如下
图中的斜线是我们随意假设一阶线性方程式y=20x,用以代表这些数据的一个方程式.以下将上述绘图的MATLAB指令列出,并计算这个线性方程式的y值与原数据y值间误差平方的总合.
>>x=[012345];
>>y=[020606877110];
>>y1=20*x;%一阶线性方程式的y1值
>>sum_sq=sum(y-y1).^2);%误差平方总合为573
>>axis([-1,6,-20,120])
>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid
如此任意的假设一个线性方程式并无根据,如果换成其它人来设定就可能采用不同的线性方程式;所以我们须要有比较精确方式决定理想的线性方程式.我们可以要求误差平方的总合为最小,做为决定理想的线性方程式的准则,这样的方法就称为最小平方误差(leastsquareserror)或是线性回归.MATLAB的polyfit函数提供了从一阶到高阶多项式的回归法,其语法为polyfit(x,y,n),其中x,y为输入数据组n为多项式的阶数,n=1就是一阶的线性回归法.polyfit函数所建立的多项式可以写成
从polyfit函数得到的输出值就是上述的各项系数,以一阶线性回归为例n=1,所以只有二个输出值.如果指令为coef=polyfit(x,y,n),则coef(1)=,coef(2)=,...,coef(n+1)=.注意上式对n阶的多项式会有n+1项的系数.我们来看以下的线性回归的示范:
>>x=[012345];
>>y=[020606877110];
>>coef=polyfit(x,y,1);%coef代表线性回归的二个输出值
>>a0=coef(1);a1=coef(2);
>>ybest=a1*x+a0;%由线性回归产生的一阶方程式
>>sum_sq=sum(y-ybest).^2);%误差平方总合为356.82
>>axis([-1,6,-20,120])
>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid