模型的预测误差主要来源于Bias和Variance,因此如何选择最优的Trade Off则决定着模型性能的高低.这在基于大数据建模的时候尤为重要.

Bias和Variance的来源

对于观测数据 $X$ 以及对应的待预测因变量 $Y$ ,我们不妨假设真实的模型为

Y = f (X) + ε

$Y = f(X)+\varepsilon$
其中ε $\varepsilon$ 为不可观测到的噪声,其服从正态分布 N(0,σ2) $N(0,\sigma^2)$ .
为了预测 Y $Y$ 值,我们基于数据集 X $X$ 通过算法训练出一个模型 f̂ (X) $\hat{f}(X)$ ,给定观测值 x $x$ ,可以得到模型在点 x $x$ 的整体预测误差为真实值和预测值之间的误差,即:

E r r (x) = E [(y - f ̂ (x)) 2]

$Err(x) = E[(y-\hat{f}(x))^2]$
经过整理可以发现其等价于：

E r r (x) = [E f ̂ (x) - f (x)] 2 + E [f ̂ (x) - E f ̂ (x)] 2 + σ 2

$Err(x) = [E\hat{f}(x)-f(x)]^2+E[\hat{f}(x)-E\hat{f}(x)]^2+\sigma^2$
即：

E r r o r = B i a s 2 + V a r i a n c e + N o i s e

$Error = Bias^2 + Variance + Noise$

Bias和Variance的权衡

Bias:度量了模型预测的期望值与真实值的偏离程度,体现了模型的拟合效果
Variance:表示不同的训练数据集训练出的模型与这些模型期望输出值之间的差异,体现了模型的复杂度和稳定性

Bias和Variance之间的关系可以通过下图看出：

可以看出,Bias和Variance其中任何一方降低则会导致另一方的升高,从而增大总体的误差.因此需要找到一个较为合适的模型从而达到一个最优的Trade off.

变量个数、噪声方差与模型自由度的选择(With R)

自由度是用来描述模型复杂程度的度量.简单来说,对于回归模型,自由度的大小对应着模型中有多少可以自由变动的变量.而往往自由度则代表了模型的复杂程度.对于自变量 $X$ 和因变量 $Y$ ,我们可以构建:

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ Y = β 0 + β 1 X Y = β 0 + β 1 X + β 2 X 2 Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3 . . .

$\begin{equation} \begin{cases} Y = \beta_0 + \beta_1X\\ Y = \beta_0 + \beta_1X + \beta_2X^2\\ Y = \beta_0 + \beta_1X + \beta_2X^2 + \beta_3X^3\\ ...\\ \end{cases} \end{equation}$

可以看出随着变量数量的增加,模型的自由度也在增加.不难理解复杂模型的预测精度会有提高但模型的简洁和稳定性也会下降,简单地模型虽然稳定但预测精度不佳.本文通过R语言来初步探究不同的变量个数以及噪声方差下,如何选择模型的自由度从而达到Bias和Variance的Trade off.

设定固定参数：

N <- 2000   #测试集数量
k <- 2000   #循环次数
n <- 500    #训练集数量

构建训练集以及测试集：
*由于 $X$ 取自 $[0,1]$ 的均匀分布,因此在构建 $X^p$ 时将其乘10以避免量纲差距过大

  Testx <- runif(N,-1,1)                         #生成X
  Testy <- 2 * exp(Testx) + rnorm(N,0,sigma)     #基于X构建真实值Y
  Testz <- matrix(Testx,N,p)               
  
  for(i in 2:p)
      Testz[,i] <- 10*Testz[,i]*Testz[,i-1]      #逐列生成X^p
    
  dataTE <- data.frame(y=Testy,z=Testz)          #写入TEST数据框
  
  Trainx <- runif(n * k,-1,1)
  Trainy <- 2 * exp(Trainx) + rnorm(n*k,0,sigma)
  Trainz <- matrix(Trainx,n*k,p)
  
  for(i in 2:p) 
      Trainz[,i] <- 10*Trainz[,i]*Trainz[,i-1]

  dataTR <- data.frame(y=Trainy,z=Trainz)        #同理生成TRAIN数据集

注意到我们在生成TRAIN数据框的时候是生成了 $n\times k$ 行数据,从而避免做回归学习的时候频繁使用for循环降低模型速度.

调用 daply 来对训练集做分块并批量运算

library(plyr)                       #引入"plyr"包来调用"daply"

index <- rep(1:k,rep(n,k))          #创建index来对n*k行的数据进行分组
PRE <- daply(dataTR, .(index),       
             mlm, TE = dataTE)      #将训练数据进行分组后依次带入自定义函数

利用生成的index带入daply将训练数据分成k个 $n \times p$ 的矩阵块,并将其依次带入自定义函数进行批量回归和预测,而使用daply的数据分块能够避免多重for循环从而提高运算速度.

向前批量回归并预测

yn <- names(dataTR)[1]
xn <- names(dataTR)[-1]                  #分别取得各个变量的变量名
mp <- length(xn)                         #记录自变量个数

ypr <- NULL
tm <- paste(yn,xn[1],sep="~")            
fam <- formula(tm)                       #生成回归方程

cp <- 1                         

repeat{
    lm1 <- lm(fam,TR)
    ypr <- c(ypr,predict(lm1,TE))        #记录预测值
    if(cp >= mp) break
    cp <- cp+1
    tm <- paste(tm,xn[cp],sep="+")       #迭代生成回归方程并做训练预测
    fam <- formula(tm)
  }

通过对预测值的处理,我们可以计算出在不同变量个数和噪声方差下不同自由度的回归模型的Bias和Variance.

*原代码在本respository下.

Trade off between Bias and Variance

Bias和Variance的来源

Bias和Variance的权衡

变量个数、噪声方差与模型自由度的选择(With R)