两个重要观点:
最小二乘数学建模等价于高斯噪声最大释然估计统计建模正则化最小二成等价于基于高斯噪声的最大化后验概率统计建模几乎所有的机器学习方法也许建立之初没有什么统计解释,最后大家发现,都可以通过统计的原理解释。
基于概率分布的建模过程,基于概率分布的建模过程,发挥的淋漓尽致的就是graphic model。
我理解的最小二乘,无非就是求解模型参数的方法。
牛顿和你的理解是一样的,牛顿和你的理解是一样的。
而统计学家说ok:我给你个统计解释,只要是高斯噪声对应的从最大释然估计,就是最小二乘,所以这是统计建模。
如果你的模型是个线性回归,你的noise是拉普拉斯,如果用最小二成就完了。正确的应该用,最小一成。
LAD叫做,机器学习上面叫做=误差建模,统计上面=稳健估计。
===========================================
维灾:
两个方面
第一, 模型的复杂性。 第二, 几何体的难以想象的各种突变由于维数很大,简单的例子就是如果我们有n个变量那么我们如果回归也有2^n个模型
第二, 几何体的难以想象的各种突变
这个地方没有很多经验我个人觉得比较难理解,你如何想象高维空间中的球体的数据,其实都集中在球壳附近。。。。。 如何想象高维空间的各种几何体,其实和三维空间中的完全不一样。我没有什么好的建议,如果大家真的想看看,就去学学Functional Geometrical Analysis.===========================================
KL divergence:俗称KL距离,常用来衡量两个概率分布的距离。
通俗一点说:如果你有两个概率分布,如何度量他们是不是很像。
===========================================
统计与机器学习ikrain已经解释的十分全面了,只是补充一下,最小二乘用的是squre loss;svm是hinge loss;所以你说前者是统计的,后者在这个意义下也应该是可以划入统计范畴的,而且alex及其追随者,把loss这里作了很多非常统一的common sense,2000年左右无数本书,可以看看,前面ikrain都提到了;GFA有时间可以学下,cmu有这个相关的课,很有启发,对于random projection启发大一些。我忘了很多了,但是高维空间的球的质量分布在球壳上或赤道上(记不清了),这个比较违反我们的直觉。一个统计的应用是高维高斯分布(维数真的要很高),随机产生点,球内是几乎找不到的,只有在球壳(或是赤道)这点忘了,出了球壳记得也是几乎没有点的。