【01】误差从哪里来 
这部分讲了误差来源于bias和variance,各自表现如何,如何定义过拟合与欠拟合,怎么解决,最后给出怎么选模型。  
01 bias和variance 
偏差和方差     
偏差定义为  
-  有个推导,为什么是(N-1)/N
   
02 如何表现 
   偏差表现为离目标的距离,方差表现为估计的分布情况,越集中越低  2. [ ] 很有意思的事这里是function set的bias和variance     方差大表现为曲线没有大的一致趋势,但是平均值趋势接近。  
03 underfitting与overfitting 
如果误差来源于偏差,欠拟合;如果来源于方差,过拟合     
04 如何解决 
大偏差 
   重新设计模型,添加更多特征或者更复杂(比如升次)  
大方差 
   
- 更多的数据,万金油的方案,而且几乎都有效,缺点是实际情况中可能难以收集。可以根据自己对问题的理解,来生成“假的”数据。
 - 正则化,使曲线更平滑,效果见上图。
   
05 如何选择模型 
   交叉验证,区别于传统的train+test+private的模式,可以让public test与private test(新数据)上的表现更接近。注意,这里并不代表能取得更好的效果,只是说更加可控。  
先将training set分为subtraining set和validation set两个部分,并将N个模型放在subtraining set上训练,validation上评估。挑出validation set上效果最好的那个,使用全部的training set进行训练,在public test上进行测试,这时候得到的表现与private test上的会比较接近。  为什么最后可以在整个training set上训练?因为这个时候已经决定好了哪个模型了,不会去改了,所以可以尽可能地增强它。  
N-fold交叉验证     划分数据集的方式不一样,形成N种组合,然后求平均误差,后面跟交叉验证一样。  
【02】梯度下降 
这部分讲了向量化,学习率,特征缩放,梯度下降的原理  
01 向量化 
02 学习率 
03 特征缩放 
04 原理 
明天再写 
                
                
                
        
    
 
 |