博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【ML】最小二乘Least squares,最大似然maximum Likelihood,贝叶斯bayesian method,正则项regularization mothed...
阅读量:5876 次
发布时间:2019-06-19

本文共 1117 字,大约阅读时间需要 3 分钟。

 

两个重要观点:

最小二乘数学建模等价于高斯噪声最大释然估计统计建模
正则化最小二成等价于基于高斯噪声的最大化后验概率统计建模

几乎所有的机器学习方法也许建立之初没有什么统计解释,最后大家发现,都可以通过统计的原理解释。

基于概率分布的建模过程,基于概率分布的建模过程,发挥的淋漓尽致的就是graphic model。

 

我理解的最小二乘,无非就是求解模型参数的方法。

牛顿和你的理解是一样的,牛顿和你的理解是一样的。

而统计学家说ok:我给你个统计解释,只要是高斯噪声对应的从最大释然估计,就是最小二乘,所以这是统计建模。

如果你的模型是个线性回归,你的noise是拉普拉斯,如果用最小二成就完了。正确的应该用,最小一成。

LAD叫做,机器学习上面叫做=误差建模,统计上面=稳健估计。

===========================================

维灾:

两个方面

第一, 模型的复杂性。
第二, 几何体的难以想象的各种突变

由于维数很大,简单的例子就是如果我们有n个变量那么我们如果回归也有2^n个模型

第二, 几何体的难以想象的各种突变

这个地方没有很多经验我个人觉得比较难理解,你如何想象高维空间中的球体的数据,其实都集中在球壳附近。。。。。
如何想象高维空间的各种几何体,其实和三维空间中的完全不一样。我没有什么好的建议,如果大家真的想看看,就去学学Functional Geometrical Analysis.

===========================================

KL divergence:俗称KL距离,常用来衡量两个概率分布的距离。

通俗一点说:如果你有两个概率分布,如何度量他们是不是很像。

===========================================

统计与机器学习ikrain已经解释的十分全面了,只是补充一下,最小二乘用的是squre loss;svm是hinge loss;所以你说前者是统计的,后者在这个意义下也应该是可以划入统计范畴的,而且alex及其追随者,把loss这里作了很多非常统一的common sense,2000年左右无数本书,可以看看,前面ikrain都提到了;GFA有时间可以学下,cmu有这个相关的课,很有启发,对于random projection启发大一些。我忘了很多了,但是高维空间的球的质量分布在球壳上或赤道上(记不清了),这个比较违反我们的直觉。一个统计的应用是高维高斯分布(维数真的要很高),随机产生点,球内是几乎找不到的,只有在球壳(或是赤道)这点忘了,出了球壳记得也是几乎没有点的。

转载地址:http://izkix.baihongyu.com/

你可能感兴趣的文章
Linux 装 Python3.6
查看>>
字典及datetime模块
查看>>
常见的web服务器
查看>>
Android操作系统漏洞允许***者跟踪用户位置
查看>>
一般人不知道的SEO术语!!!
查看>>
Java 本地环境设置
查看>>
Centos yum 安装zabbix3.4
查看>>
Java日期时间操作源码示例大全
查看>>
TCP三次握手
查看>>
初学者最常问的几个问题,别问了看这里!
查看>>
python入门系列:Python socket编程
查看>>
三年内拿下众多500强客户,观远数据这家新兴BI厂商有哪些大杀器?
查看>>
Redux + (RxKotlin | RxSwift) =很棒的本地移动应用程序
查看>>
蛋花花浅谈人工智能主要应用于哪些方面
查看>>
MIME类型大全
查看>>
我的友情链接
查看>>
global_name启用以及修改规则
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
Spring Cache抽象详解
查看>>