PPV课数据科学社区单变量线性回归原理解析

Linear Regression with one Variable

(单变量线性回归)

Model and Cost Function(模型和损失函数)

给出一个房价预测的例子，x轴是房子的大小，y轴是房子的价格，图中标注了一些房子作为数据集，而这些点被称为标注数据(labeled data)，利用这样的数据来预测的方法称为：监督学习。监督学习分为两类：分类与回归，此时，作为预测房价的这个例子是监督学习中的回归例子。

$m$代表是数据集的个数，$x’s$是输入变量或者特征，$y’s$是输出变量或者目标变量。

选择题1

整个预测的过程可以归结为如下图:

通过训练数据，将数据输入到算法里面，我们能得到一个关于这个模型的一个假设$h$，然后利用这个假设$h$我们将其他输入变量输入到该假设中就会得到我们想要的预测结果$y$。那么对于单变量的线性回归我们用如下公式来表示：

hθ(x)=θ0+θ1

线性模型其意思是模型是呈现线性变化的，为什么对于该房价的例子我们要采用单变量的，其原因是该模型的未知参数仅有一个$x$来决定。

对于假设函数其包含两个参数，$θ_0$和$θ_1$，那么如何来确定这两个参数来使得得出的假设函数直线更好的拟合数据集或者换句话说如何才能判断假设函数所产生的误差最小？

所以，给出如下定义：

单变量线性回归原理解析

第一个公式是最小化预测值与真实值差的平方的值，也叫作均方误差值，是衡量误差的一种方式。第二个公式是我们的假设函数。有时我们更喜欢写成如下形式：

单变量线性回归原理解析

其中的$J(theta_0,theta_1)$叫做代价函数(cost function),我们的目的就是最小化代价函数，使得假设函数更加接近真实数据集。为了能更好的解释代价函数我们举个例子并画出能说明其含义的图来：

选择题2

刚刚上面的例子图片采用的二维的图像，因为图片中只包含了两个参数，$theta_1$和$J(theta_1)$，如果是三个参数的图片则会映射到三维的图像上面上：

在这个三维图片中，图中的图片上的点距离“水平地面”的高度就是它的代价值$J(theta_0,theta_1)$，或许我们还可以用另外一种图片来表示这个三维图：剖面图或者轮廓图。

从上到下，左边依次是不同的假设函数直线，右边依次是不同的轮廓图，这三个假设直线一个比一个更接近数据集，所以对应的轮廓图中的代价函数的点会更接近中心区域。所以运用此种图片可以更加直观的来判别假设函数的好坏。

Gradient Desent(梯度下降)

就像图片中画出的那样，梯度下降就是以最合适的方向来进行递减。假如自己站在一个山峰的某以高度，现在想以最快的速度去山底，所以就会问自己以我现在所在的位置我的四周360度的方向上哪一个方向上可以令我下降最快，然后不断进行迭代和执行，这样终会在某一时刻会到达山底。

但是又如上图所示，不可避免的当我所站的位置不一样，会下降到不同的山底，而这样的山底其实只是在我当前的视野中的山底并不是真正的山底，所以，此种方法会受限于$color{red}{初始位置}$的选择。换句话说就是会陷入$color{red}{局部最优}$

下面让我们来公式化梯度下降算法：

其中$alpha$叫做学习率(learning rate)，${partialoverpartialtheta_j}$叫做梯度，$color{red}{两者相乘叫做步长}$。

选择题3

那么公式化完了梯度下降的公式，让我们再来看看这个公式所包含的意义和原理：

上图中有两个小坐标图，先来看第一个小坐标图，注意到在图的右边有个红点，此时在它当前的位置上的导数是个$color{red}{正数}$，所以对于$theta_1 := theta_1 – alpha{partialoverpartialtheta_1}$中的$alpha{partialoverpartial}$即为$partial$倍的某一个正数，所以对于更新后的$theta_1$相当于$color{red}{减小}$了，所以更新后的$theta_1$会逐渐靠近图中的谷底。

而第二个小坐标图，注意到在图的左边有个红点，此时在它当前的位置上的导数是个$color{red}{负数}$，所以对于$theta_1 := theta_1 – alpha{partialoverpartialtheta_1}$中的$alpha{partialoverpartial}$即为$partial$倍的某一个负数，所以对于更新后的$theta_1$相当于$color{red}{增加}$了，所以更新后的$theta_1$也会逐渐靠近图中的谷底。以上就是梯度下降算法的自更新原理。

对于参数$alpha$也有选取上的一些注意事项，如果选取的太小则会导致到达最终点的时间过慢，太大的话会导致在最终点附近发生来回震荡(overshoot)：