上二年级的大儿子一直在喝无乳糖牛奶,最近让他尝试喝正常牛奶,看看反应如何。三天过后,儿子说,好像没反应,我可不可以说我不对乳糖敏感了。
我说,呃,这个问题不简单啊。你知道吗,这在统计学上叫推断。
儿子很好学,居然叫我解释什么叫推断。
 
好吧,那我就来卖弄一下。
 
老早之前,听机器学习的一个podcast,是总结前一年机器学习领域发生什么事情,最后一段P主说: 我们已经总结了这一年,那我们来预测(predict)一下明年吧,不过我觉得说predict不是那么准确,应该是做一下inference比较对。
 
Hmm,我们做机器学习的一般来说,说来说去就是做预测,inference是个什么鬼。
 
推断inference是统计学上的概念。简单的理解,就是从少量的样本的统计结果,得出对总体的结论。
 
比如说有美国总统大选,有调查公司就会对一部分人进行问卷调查,问他们会选谁,然后从根据这个结果,推断出这届总统会是谁。统计学是基于概率论的,当给出结果的时候,会给出confident interval,就是可信度。这个推断做得好不好和样本的选取关系非常大,一句话样本必须有代表性。
 
听上去,和机器学习貌似很像,都差不多是预测个东西嘛。其实还是不一样的,什么才叫预测呢。举一个例子,就看出区别了。
 
比如说我们现在也知道一些样本,知道他们的年龄,性别,工作,收入,居住区域,会选谁。然后,我们从总体(population)中随便找出一个人,并且知道他的年龄,性别,工作,收入,居住区域,我们想知道他会选谁,现在做的就是预测predict。
 
预测,机器学习的定义就是,根据给定的样本,训练模型,用来预测未知的样本。
 
当然机器学习和统计学并不是分开的两学科。很多机器学习的模型是基于统计学的。比如说非常popular的贝叶斯统计模型。对于被观察事件,根据先验知识,建立分布模型,根据观察到的样本得到后验分布模型,然后再用来预测未知样本的概率分布,作出概率最大的预测,并给出可信度。和机器学习中的或回归或分类模型一起,可谓条条大路通罗马。但其实也有有交叉的,比如说最大熵算法其实是建立在以概率论为基础的信息论上的。
 
统计学是非常有意思的数学。 

最新文章

  1. java16
  2. JS开发windows phone8.1系列之3
  3. 【poj2226】 Muddy Fields
  4. 【转】 BSS段 数据段 代码段 堆栈 指针 vs 引用
  5. HttpClient(4.3.5) - Exception Handling
  6. JBoss7 局域网无法访问 解决方法
  7. 桂电在线_微信公众平台开发之-运用angularjs显示学校公告新闻列表和详情页面
  8. PHP数据库
  9. c++冒泡排序的模板函数设计
  10. eclipse 找不到application选项
  11. 学习GDI+ (1)
  12. angular 实现时间段选择组件
  13. Windows 8 快捷键
  14. [Swift]LeetCode294. 翻转游戏之 II $ Flip Game II
  15. css伪类及伪元素用法
  16. matplotlib-形状
  17. POJ 3078 - Shuffle'm Up - [模拟题]
  18. 百度接口test
  19. mac中svn服务器的搭建以及如何在eclipse中使用
  20. LeetCode118:Pascal's Triangle

热门文章

  1. jsp课堂笔记5 Java servlet
  2. onsubmit校验表单时利用ajax的return false无效解决方法-转
  3. 火车进栈(进出栈的模拟,dfs爆搜)
  4. 下载数据到csv中(乱码),使用numpy , pandas读取失败 解决方案
  5. Django坑_01
  6. 程序人生丨听说程序员是相当就能当的?BAT大牛当场就不乐意了!
  7. 发送ajax请求时候注意的问题
  8. 性能分析(3)- 短时进程导致用户 CPU 使用率过高案例
  9. NTFS 文件系统结构
  10. IdentityServer4 (3) 授权码模式(Authorization Code)