三种收敛

依概率收敛

如果对任意 $\epsilon>0$ ，都有 $\displaystyle \lim_{n \to +\infty}P(|X_n-X|\ge\epsilon)=0$ ，或等价地， $\displaystyle \lim_{n \to +\infty}P(|X_n-X|<\epsilon)=1$ ，则称随机变量序列 $X_1,X_2, ...,X_n$ 依概率收敛于随机变量 $X$ 。
弱大数定律

设随机变量 $X_1,X_2, ...,X_n$ 独立同分布，且均值 $\mu$ 、方差 $\sigma^2$ 存在，则对任意 $\epsilon>0$ ，都有 $\displaystyle \lim_{n \to +\infty}P(|\overline{X}_n-\mu|<\epsilon)=1$ ，即 $\overline{X}_n$ 依概率收敛于 $\mu$ 。
殆必收敛（概率1收敛）

是比依概率收敛更强的一种收敛，类似于函数列的点点收敛。

如果对任意 $\epsilon>0$ ，都有 $P(\displaystyle \lim_{n \to +\infty}|X_n-X|<\epsilon)=1$ ，则称随机变量序列 $X_1,X_2, ...,X_n$ 殆必收敛于随机变量 $X$ 。
强大数定律

设随机变量 $X_1,X_2, ...,X_n$ 独立同分布，且均值 $\mu$ 、方差 $\sigma^2$ 存在，则对任意 $\epsilon>0$ ，都有 $P(\displaystyle \lim_{n \to +\infty}|\overline{X}_n-\mu|<\epsilon)=1$ ，即 $\overline{X}_n$ 殆必收敛于 $\mu$ 。
依分布收敛

如果对 $F_X(x)$ 的任意连续点 $x$ ，都有 $\displaystyle \lim_{n \to +\infty}F_{X_n}(x)=F_X(x)$ ，则称随机变量序列 $X_1,X_2, ...,X_n$ 依分布收敛于随机变量 $X$ 。
总结

殆必收敛蕴含依概率收敛，殆必收敛和依概率收敛蕴含依分布收敛

大数定律与中心极限定理

依分布收敛

大数定律研究的是一系列随机变量 ${X_n}$ 的均值 $\overline X_n=\frac1n∑_{i=1}^nX_i$ 是否会依概率收敛于其期望 $E\overline X_n$ 这个数值，而中心极限定理进一步研究 $\overline X_n$ 服从什么分布。若 ${X_n}$ 满足一定的条件，当 $n$ 足够大时， $\overline X_n$ 近似服从正态分布，这就是中心极限定理的主要思想，这也体现了正态分布的重要性与普遍性。

点估计

定义：样本的任何一个函数 $W(X_1,...,X_n)$ 称为一个点估计量，即任何一个统计量就是一个点估计量。

无偏性：估计量的数学期望等于总体参数；

有效性：方差越小越越有效；

一致性：当样本量趋于无穷时，估计值离真实值越近。

极大似然估计量（MLE）

对每个固定的样本点 $x$ ，令 $\hat\theta(x)$ 是参数 $\theta$ 的一个取值，它是的 $L(\theta|x)$ 作为 $\theta$ 的函数在该处达到最大值。那么，基于样本 $X$ 的极大似然估计量就是 $\hat\theta(X)$ 。

一阶导数为0时极大值点的必要非充分条件

MLE既是相合估计也是有效估计

随机梯度下降和牛顿法

随机梯度下降（SGD）是一种用于训练神经网络的优化算法，用于调整权重、更新参数，能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降，因为其处理的是mini-batch，而非单个训练样本。牛顿法
牛顿法是基于二阶泰勒展开来近似 $f (x)$ ：

$f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于：f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2$

效率对比
- 从收敛速度上看，牛顿法是二阶收敛，随机梯度下降是一阶收敛，牛顿法收敛速度更快。
- SGD仅考虑方向，牛顿法不但考虑了方向还兼顾了步子的大小，其对步长的估计用的是二阶逼近。
- 牛顿法仍然是局部算法，只是在局部上看的更细致。
牛顿法的优缺点：
- 优点：二阶收敛，收敛速度快。
- 缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算复杂。