概述

今天要说一下机器学习中大多数书籍第一个讲的（有的可能是KNN）模型-线性回归。说起线性回归，首先要介绍一下机器学习中的两个常见的问题：回归任务和分类任务。那什么是回归任务和分类任务呢？简单的来说，在监督学习中（也就是有标签的数据中），标签值为连续值时是回归任务，标志值是离散值时是分类任务。而线性回归模型就是处理回归任务的最基础的模型。

形式

在只有一个变量的情况下，线性回归可以用方程：y = ax+b 表示。而如果有多个变量，也就是n元线性回归的形式如下：

n元线性回归

在这里我们将截断b用θ0代替，同时数据集X也需要添加一列1用于与θ0相乘，表示+b。最后写成矩阵的形式就是θ的转置乘以x。其中如果数据集有n个特征，则θ就是n+1维的向量并非矩阵，其中包括截断b。

目的

线性回归的目的就是求解出合适的θ，在一元的情况下拟合出一条直线（多元情况下是平面或者曲面），可以近似的代表各个数据样本的标签值。所以最好的直线要距离各个样本点都很接近，而如何求出这条直线就是本篇文章重点要将的内容。

一元线性回归拟合数据

最小二乘法

求解线性回归模型的方法叫做最小二乘法，最小二乘法的核心就是保证所有数据偏差的平方和最小。它的具体形式是：

其中hθ(x^(i))代表每个样本通过我们模型的预测值，y^(i)代表每个样本标签的真实值，m为样本个数。因为模型预测值和真实值间存在误差e，可以写作：

根据中心极限定理，e^(i)是独立同分布的(IID)，服从均值为0，方差为某定值σ的平方的正太分布。具体推导过程如下：

最小二乘法推导

求解最小二乘法：

我们要求得就是当θ取某个值时使J(θ)最小，求解最小二乘法的方法一般有两种方法:矩阵式和梯度下降法。

矩阵式求解：

当我们的数据集含有m个样本，每个样本有n个特征时，数据x可以写成m*(n+1)维的矩阵（+1是添加一列1，用于与截断b相乘），θ则为n+1维的列向量（+1是截断b），y为m维的列向量代表每m个样本结果的预测值。则矩阵式的推导如下所示：

因为X^tX为方阵，如果X^tX是可逆的，则参数θ得解析式可以写成：

如果X的特征数n不是很大，通常情况下X^tX是可以求逆的，但是如果n非常大，X^tX不可逆，则用梯度下降法求解参数θ。

梯度下降法（GD）：

在一元函数中叫做求导，在多元函数中就叫做求梯度。梯度下降是一个最优化算法，通俗的来讲也就是沿着梯度下降的方向来求出一个函数的极小值。比如一元函数中，加速度减少的方向，总会找到一个点使速度达到最小。通常情况下，数据不可能完全符合我们的要求，所以很难用矩阵去求解，所以机器学习就应该用学习的方法，因此我们采用梯度下降，不断迭代，沿着梯度下降的方向来移动，求出极小值。梯度下降法包括批量梯度下降法和随机梯度下降法（SGD）以及二者的结合mini批量下降法（通常与SGD认为是同一种，常用于深度学习中）。

梯度下降法的一般过程如下:

1）初始化θ（随机）

2）求J(θ)对θ的偏导：