期望:随机变量的平均值
矩:
X X X的 n n n阶矩: μ n ′ = E X n \mu_n^\prime=EX^n μn′=EXn
X X X的 n n n阶中心矩: μ n = E ( X − μ ) n \mu_n=E(X-\mu)^n μn=E(X−μ)n
X X X的2阶中心矩称为方差
三种收敛
-
依概率收敛
如果对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 lim n → + ∞ P ( ∣ X n − X ∣ ≥ ϵ ) = 0 \displaystyle \lim_{n \to +\infty}P(|X_n-X|\ge\epsilon)=0 n→+∞limP(∣Xn−X∣≥ϵ)=0,或等价地, lim n → + ∞ P ( ∣ X n − X ∣ < ϵ ) = 1 \displaystyle \lim_{n \to +\infty}P(|X_n-X|<\epsilon)=1 n→+∞limP(∣Xn−X∣<ϵ)=1,则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn依概率收敛于随机变量 X X X。
-
弱大数定律
设随机变量 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn独立同分布,且均值 μ \mu μ、方差 σ 2 \sigma^2 σ2存在,则对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 lim n → + ∞ P ( ∣ X ‾ n − μ ∣ < ϵ ) = 1 \displaystyle \lim_{n \to +\infty}P(|\overline{X}_n-\mu|<\epsilon)=1 n→+∞limP(∣Xn−μ∣<ϵ)=1,即 X ‾ n \overline{X}_n Xn依概率收敛于 μ \mu μ。
-
殆必收敛(概率1收敛)
是比依概率收敛更强的一种收敛,类似于函数列的点点收敛。
如果对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 P ( lim n → + ∞ ∣ X n − X ∣ < ϵ ) = 1 P(\displaystyle \lim_{n \to +\infty}|X_n-X|<\epsilon)=1 P(n→+∞lim∣Xn−X∣<ϵ)=1,则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn殆必收敛于随机变量 X X X。
-
强大数定律
设随机变量 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn独立同分布,且均值 μ \mu μ、方差 σ 2 \sigma^2 σ2存在,则对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 P ( lim n → + ∞ ∣ X ‾ n − μ ∣ < ϵ ) = 1 P(\displaystyle \lim_{n \to +\infty}|\overline{X}_n-\mu|<\epsilon)=1 P(n→+∞lim∣Xn−μ∣<ϵ)=1,即 X ‾ n \overline{X}_n Xn殆必收敛于 μ \mu μ。
-
依分布收敛
如果对 F X ( x ) F_X(x) FX(x)的任意连续点 x x x,都有 lim n → + ∞ F X n ( x ) = F X ( x ) \displaystyle \lim_{n \to +\infty}F_{X_n}(x)=F_X(x) n→+∞limFXn(x)=FX(x),则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn依分布收敛于随机变量 X X X。
-
总结
殆必收敛蕴含依概率收敛,殆必收敛和依概率收敛蕴含依分布收敛
大数定律与中心极限定理
依分布收敛
大数定律研究的是一系列随机变量 X n {X_n} Xn 的均值 X ‾ n = 1 n ∑ i = 1 n X i \overline X_n=\frac1n∑_{i=1}^nX_i Xn=n1∑i=1nXi 是否会依概率收敛于其期望 E X ‾ n E\overline X_n EXn 这个数值,而中心极限定理进一步研究 X ‾ n \overline X_n Xn 服从什么分布。若 X n {X_n} Xn 满足一定的条件,当 n n n足够大时, X ‾ n \overline X_n Xn 近似服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性与普遍性。
点估计
- 定义:样本的任何一个函数 W ( X 1 , . . . , X n ) W(X_1,...,X_n) W(X1,...,Xn)称为一个点估计量,即任何一个统计量就是一个点估计量。
无偏性:估计量的数学期望等于总体参数;
有效性:方差越小越越有效;
一致性:当样本量趋于无穷时,估计值离真实值越近。
极大似然估计量(MLE)
对每个固定的样本点 x x x,令 θ ^ ( x ) \hat\theta(x) θ^(x)是参数 θ \theta θ的一个取值,它是的 L ( θ ∣ x ) L(\theta|x) L(θ∣x)作为 θ \theta θ的函数在该处达到最大值。那么,基于样本 X X X的极大似然估计量就是 θ ^ ( X ) \hat\theta(X) θ^(X)。
一阶导数为0时极大值点的必要非充分条件
MLE既是相合估计也是有效估计
随机梯度下降和牛顿法
-
随机梯度下降(SGD)是一种用于训练神经网络的优化算法,用于调整权重、更新参数,能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降,因为其处理的是mini-batch,而非单个训练样本。牛顿法
-
牛顿法是基于二阶泰勒展开来近似 f ( x ) f(x) f(x):
f ( x ) ≈ f ( x n ) + ( x − x n ) T ∇ f ( x n ) + 1 / 2 ( x − x n ) T H ( f ) ( x n ) ( x − x n ) 等价于: f ( x ) ≈ f ( x n ) + ( x − x n ) f ′ ( x 0 ) + 1 2 ! f ′ ′ ( x n ) ( x − x n ) 2 f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于:f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2 f(x)≈f(xn)+(x−xn)T∇f(xn)+1/2(x−xn)TH(f)(xn)(x−xn)等价于:f(x)≈f(xn)+(x−xn)f′(x0)+2!1f′′(xn)(x−xn)2
-
效率对比
-
从收敛速度上看 ,牛顿法是二阶收敛,随机梯度下降是一阶收敛,牛顿法收敛速度更快。
-
SGD仅考虑方向,牛顿法不但考虑了方向还兼顾了步子的大小,其对步长的估计用的是二阶逼近。
-
牛顿法仍然是局部算法,只是在局部上看的更细致。
-
-
牛顿法的优缺点:
- 优点:二阶收敛,收敛速度快。
- 缺点:牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算复杂。