机器学习基石---Why Can Machines Learn(Part5)

网友投稿 583 2022-09-02

机器学习基石---Why Can Machines Learn(Part5)

机器学习基石---Why Can Machines Learn(Part5)

Ein≈0,那么机器学习可行。Part5考虑存在noise时,上述的说法能否成立,并且介绍Error的相关内容。

1 Noise

数据集有Noise的情况下,VC维还可以用吗?还是从直观上解释,不做具体数学证明。那么所谓的Noise到底是什么? * y:人为因素,打错label * y:同样特征的样本被标记分为不同类,比如同样条件用户,一个还款,一个未还 * X本身记录错误 对于二分类问题,f是一个确定性模型,即给定X,会输出一个y,但是noise是一个随机发生的东西。比如统计课程中讲到回归,会把noise假设成正态分布。比如在x点时,由于nosie的影响,有0.7个概率y=1,0.3概率y=0,也就是说y于x有关(其实是和noise有关吧),那么每个点(x,y)出现的概率是$P(y|x)。数学上可以证明有noise的数据,VC维的理论依旧有效。具体不表,也不知晓。

2 Error

Ein和Eout中Error的衡量。我们的learning希望找到一个Eout很小的g。但是Eout的计算方式,或者说预测值和真实值之间的误差可以有不同的定义,我们把这些误差看成成本,希望g能够使得总成本最低。   之前的二分类问题中,误差是这样定义的:

error={1h(xn)≠f(xn)0h(xn)=f(xn)

这样的误差定义方式是只要判错,误差就为1。那么对于数量为N的资料,Ein=1N∑Nn=1error(h,xn,yn)。这种误差衡量的方式称为”pointwise measure”,即对每个点都记录误差。这个Ein也称为成本函数、损失函数,最终目的是找到一个合适的演算法使得成本函数最小。   误差的定义还有其他的类型,如在回归中常用的平方差(y^−y)2。实际应用中,先根据问题选择合适的误差衡量方式。把h作用与D中所有样本的error加和作为cost function,也就是Ein,设计合适的演算法,找到cost function最小时候的h做为g。

Summary

Ein,这时,learning就是可行的。                                        2018-01-29 于杭州

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:PHP基于Token的身份验证的方法,可参考学习下
下一篇:机器学习基石---Linear Models for Classification
相关文章

 发表评论

暂时没有评论,来抢沙发吧~