Category: 数学和统计学

机器学习的首要条件不是数学而是数据分析

2012年10月《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。在美国,数据科学家的年收入已超过律师和医生,无怪乎有人惊呼“告诉你的孩子不要成为医生而要成为数据科学家”。 那么你怎样才能找到门路呢?这篇文章或许会给你些启发。

学习机器学习需要具备怎样的数学水平?

在过去的几个月里,我一直和一些人交流,他们已经开始切入数据科学领域并积极使用机器学习(ML)技术来探索统计规律、或构建完善的数据驱动产品。然而,我发现很多情况下统计分析结果不尽人意的原因是是缺乏必要的数学直觉和知识框架。这就是我决定写这篇博客的主要原因。

【概率论与数理统计】全概率公式和贝叶斯公式

条件概率是理解全概率公式和贝叶斯公式的基础,可以这样来考虑,如果P(A|B)大于P(A)则表示B的发生使A发生的可能性增大了。

在条件概率中,最本质的变化是样本空间缩小了——由原来的整个样本空间缩小到了给定条件的样本空间。

概率的意义:随机世界与大数法则

学生时代,我主修数学一种从给定前提下演绎结果的逻辑。后来我念统计学一种从经验中学习的理性方法,及从给定的结果验证前提的逻辑。我已认识到数学及统计,在人类为提昇自然知识,及有效管理日常事务所做的一切努力中,占有重要性。

热门数据挖掘模型应用入门: LASSO回归

LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(Variable Selection)和复杂度调整(Regularization)。因此,不论目标因变量(dependent/response varaible)是连续的(continuous),还是二元或者多元离散的(discrete), 都可以用LASSO回归建模然后预测。

一篇文章读懂A/B测试背后的统计学原理

为了可以让大家更好地理解 A/B Testing 背后的统计学知识,我们之前已经发过几篇深度分析文章;但是这些文章中涉及的一些术语和统计学知识,对一些基础不太好的同学难免会造成困惑,为了可以让大家更好地理解这后面蕴藏的学术逻辑和算法基础,我们特地从非学术的角度整理出一期内容,献给大家参考。

什么是非抽样误差?

非抽样误差是指除抽样误差以外所有的误差的总和。应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。我们平时说的控制误差主要指的就是控制非抽样误差

ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。

麻省理工(MIT)牛人解说数学体系

作为计算机的学生,我没有任何企图要成为一个数学家。我学习数学的目的,是要想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的东西看得更深广一些。说起来,我在刚来这个学校的时候,并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目,是对appearance和motion建立一个unified的model。这个题目在当今Computer Vision中百花齐放的世界中并没有任何特别的地方。事实上,使用各种Graphical Model把各种东西联合在一起framework,在近年的论文中并不少见。

统计学的七大支柱

JSM上统计界的老帮主Stephen Stigler做了一个主题演讲,讲“统计学的七大支柱”,好心又认真的Rick Wicklin同学记了笔记,彼时估计还在中国城吃饭的我才得以了解SS大人到底讲了什么。回头看看笔记,我觉得SS大人有点吹嘘统计学之嫌。所谓支柱,就是没了它咱就垮了。七大支柱为:

隐马尔可夫模型的原理及实现 HMM(一)

马尔可夫模型(Markov Model)是通过寻找事物状态的规律对未来事物状态进行预测的概率模型,在马尔可夫模型中假设当前事物的状态只与之前的n个状态有关。n=1时表示事物当前的状态只与上一个状态有关,这也是最简单的一阶马尔可夫模型。隐马尔可夫模型(Hidden Markov Model)是马尔可夫模型中的一种。马尔可夫模型的使用场景非常广泛,包括语言识别,自然语言处理和生物信息领域。Google的PageRank算法中也使用到了马尔可夫模型。

ALS矩阵分解算法应用

ALS矩阵分解算法应用

ALS的矩阵分解算法常应用于推荐系统中,将用户(user)对商品(item)的评分矩阵,分解为用户对商品隐含特征的偏好矩阵,和商品在隐含特征上的映射矩阵。与传统的矩阵分解SVD方法来分解矩阵R(R∈Rm×n)不同的是,ALS(alternating least squares)希望找到两个低维矩阵,以 R~=XY 来逼近矩阵R,其中 ,X∈Rm×d,Y∈Rd×n,d 表示降维后的维度,

MCMC(Markov Chain Monte Carlo) and Gibbs Sampling

随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。

统计建模的24种应用(第1部分)

我们讨论统计模型的一般应用情况.不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学.如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等,我们都不会讨论其具体的算法,相反,我们讨论的框架是每一个使用自己的技术和算法去解决实际生活中的问题.

切换注册

登录

忘记密码 ?

切换登录

注册