《矩阵论》学习笔记

- 线性代数引论
- - - 线性空间
    - 线性变换及矩阵
    - Jordan标准型
    - 欧式空间和酉空间
    - 最小二乘法
- 矩阵的分解
- - - 三角分解
    - QR分解
    - 正规矩阵及Schur分解
    - 满秩分解
    - 奇异值分解
    - 单纯矩阵的谱分解
- 矩阵的广义逆
- - - 广义逆矩阵
    - 广义逆矩阵 $A^+$
    - $A^+$ 的几种基本求法
    - 广义逆与线性方程组
    - - 线性方程组的相容性、通解与 $A\{1\}$
        相容线性方程组的最小范数解与 $A\{1,4\}$
        不相容方程组的最小二乘解与 $A\{1,3\}$
        不相容方程组的最小范数最小二乘解与 $A^+$
- 矩阵分析
- - - 向量与矩阵的范数
    - 特征值估计
    - 矩阵级数
    - 矩阵函数及其计算
    - - 矩阵函数的计算法（一）
        矩阵函数的计算法（二）

线性代数引论

线性空间

加群的定义：

例如在数的乘法运算下，加群中的零元就应该是1，此时 $\ { 0 } , ⋅ ) (\mathbb{Z} \backslash \{0\},\cdot)$ 不构成加群，因为负元不一定存在。

一个数集中任意两个数的和，差，积，商仍在该数集中（对四则运算封闭），则称该数集为数域，例如 $\mathbb{Q}$ ， $\mathbb{R}$ ， $\mathbb{C}$ 均为数域。

线性空间的定义：

线性相关和线性无关的定义略。

维数的定义：

基底的定义：

由定义可以得到推论：对于有限维空间 $V$ ， $\iff V的任一基底的元素个数都为n$ 。

坐标的定义：

过渡矩阵的定义：

过渡矩阵是可逆的。

取 $\bf{x}\in V$ ，设 $\mathbf{x}$ 在基 $\mathbf{x_1,\dots,x_n}$ 和 $\mathbf{y_1,\dots,y_n}$ 下的坐标分别为 $(\xi_1,\dots,\xi_n)^T$ 和 $(\eta_1,\dots,\eta_n)^T$ ，那么有：
$\begin{aligned} (\mathbf{y_1,\dots,y_n})&=(\mathbf{x_1,\dots,x_n})\mathbf{A} \\ (\xi_1,\dots,\xi_n)^T &= \mathbf{A}(\eta_1,\dots,\eta_n)^T \end{aligned}$
子空间的定义： $\subseteq V$ ，且 $W$ 也是线性空间，那么 $W$ 是 $V$ 的子空间。

交空间与和空间的定义和定理：

如果 $W_1 \cap W_2=\{\theta\}$ ，那么 $W_1+W_2$ 是直和，记作 $W_1\bigoplus W_2$ 。

线性变换及矩阵

线性变换反映了线性空间之间的联系。其定义为：

常见的具有几何意义的变换，例如伸缩、旋转、反射、投影都是线性变换。平移不是线性变换。

核空间、像空间及亏加秩定理：

这里引入 $L$ 是为了后面的叙述方便， $T\in L(V,W)$ 就表示 $T 是 V 到 W 的线性变换$ 。 $\theta$ 是 $W$ 中的零元。核空间维数加上像空间维数等于定义域维数。

线性变换的矩阵：设 $d imV = n$ ， $T\in L(V,V)$ ，取定 $V$ 的一组基 $\mathbf{e}_1,\dots,\mathbf{e}_n$ ，令
$T\mathbf{e}_j=a_{1j}\mathbf{e}_1+\dots+a_{nj}\mathbf{e}_n, \ 1\le j\le n,$
采用矩阵记法得到 $T(\mathbf{e}_1,\dots,\mathbf{e}_n)=(\mathbf{e}_1,\dots,\mathbf{e}_n)\mathbf{A}$ ，则称 $\mathbf{A}$ 为线性变换 $T$ 的矩阵。

$L (V, V)$ 与 $F^{n\times n}$ 存在一一对应关系，因此某个线性空间上的线性变换存在唯一一个矩阵与之对应。

线性空间同构的定义：

同构的线性空间具有完全一致的空间结构和各种运算律。线性空间同构 $\iff$ 维数相等。

所以相似矩阵反映的是同一个线性变换。

特征值和特征向量：

用线性变换 $T$ 的矩阵 $\mathbf{A}$ 来代数计算特征值和特征向量，可得：

方程有解，说明行列式为0：

另外，相似矩阵有相同的特征多项式及特征值。

根据特征多项式可知， $|\mathbf{A}|=\prod\limits_{i=1}^{n}{\lambda_i}$ ， $tr(\mathbf{A})=\sum\limits_{i=1}^n{\lambda_i}$ 。

Schur引理：

Hamilton-Cayley定理 ：

Cayley定理对一般数域 $F$ 的矩阵仍然成立。从Cayley定理可以看出，任何一个矩阵 $A$ 都存在使其零化的多项式，由此有如下定义和定理：

也就是说 $A$ 的最小零化多项式可以整除任一零化多项式，且最小零化多项式与特征多项式有相同的根。

关于属于不同特征值的特征向量之间，有如下定理：

一些其它定理：

$t r (A B) = t r (B A)$ ；
相似矩阵具有相同的特征值；

Jordan标准型

可对角化矩阵（单纯矩阵）的定义（注意是相似）：

可对角化矩阵的特征：

由定理1还可以得到推论：

矩阵可对角化等价于它的每个特征值的几何重数等于代数重数。
若矩阵 $\mathbf{A}$ 有 $n$ 个互异的特征值，那么它必然可以对角化。
可对角化 $\iff$ 最小多项式无重根。

$\mathbf{\lambda-矩阵}$ 的定义：

平时的数字矩阵是特殊的 $\lambda-矩阵$ 。它的秩定义为：

一个定理：

无论如何初等变换， $A(\lambda)$ 的最终的Smith标准形是不变的，其中的 $d_i(\lambda)$ 称为不变因子。因此若 $A(\lambda)\cong B(\lambda)$ ，那么两者的不变因子也相同，反之亦然。

以下在复数域上讨论， $\mathbb{C}$ 上的多项式都可以分解为一次因子的幂的乘积，设 $A(\lambda)$ 的不变因子的分解为

由此引入如下定义：

根据初等因子、秩、等价的概念可以得到如下定理：

也就是说，两个 $\mathbf{\lambda-矩阵}$ 等价 $\iff$ 两者有相同的初等因子组并且秩相等。

在实际求初等因子组时，可以先将 $A(\lambda)$ 化为对角形式（不一定要标准形），再分解因子即可，这依赖于如下结论

另外还有一个方阵相似的定理：

给定对角矩阵，如何求其不变因子（Smith标准形）？

将初等因子按照类别降幂排列，不变因子取同一等级幂的乘积。

例如求 $A(\lambda)\cong diag\{\lambda(\lambda+1),\lambda^2,(\lambda+1)^2,\lambda(\lambda-1)\}$ 的初等因子和不变因子：显然其初等因子有： $\lambda,(\lambda+1),\lambda^2,(\lambda+1)^2,\lambda,(\lambda-1)$ ，按照类别降幂排列得：
$\begin{matrix} \lambda^2 & \lambda&\lambda&1 \\ (\lambda+1)^2 & (\lambda+1)&1&1\\ (\lambda-1)&1&1&1 \end{matrix}$
因此不变因子为： $d_4(\lambda)=\lambda^2(\lambda+1)^2(\lambda-1),d_3(\lambda)=\lambda(\lambda+1),d_2(\lambda)=d_1(\lambda)=1$ 。

接下来就是重头戏，Jordan标准形（以及Jordan块）的定义：

注意 $J$ 是上三角阵。有 Jordan标准形定理：
$\sim J$
根据Jordan标准形的定义，我们可以推出： $A$ 可对角化，当且仅当 $\lambda I-A$ 的初等因子都是一次的。

利用 $\lambda I-A$ 的Smith标准形，可以很简单的得到 $A$ 的最小多项式：

由此我们得到如下判定可对角化的推论：

欧式空间和酉空间

在实际问题中线性空间存在不够完善，因此需要将度量性质引入线性空间。

欧式（Euclid）空间的定义：

欧式空间的一些性质，例如：模、三角不等式、柯西不等式、正交、标准正交基、基的度量矩阵等，不作详细说明。

Schmidt正交化方法：

先正交化

再单位化。

两个欧式子空间正交，表示各自任取一个向量，这两个向量正交；这等价于基相互正交。一个定理：

正交变换的定义：

正交变换不改变长度、距离、角度。关于正交变换，以下命题等价：

$T$ 是正交变换；
$\forall x\in V, ||Tx||=||x||$ ；
若 $e_1,\dots,e_n$ 是 $V$ 的标准正交基，则 $Te_1,\dots,Te_n$ 也是 $V$ 的标准正交基；
$T$ 在 $V$ 的标准正交基下的矩阵 $Q$ 满足 $Q^T=Q^{-1}$ 。

酉空间的定义与欧式空间类似，欧式空间为有限维实内积空间，酉空间则为有限维复内积空间。两者有完全平行的理论：

酉空间上的内积形式一般为 $(x,y)=y^Hx=(\overline{y})^Tx$ 。

酉空间的一些性质：

$A$ 为酉矩阵 $A^{-1}=A^H \iff$ $A$ 的列向量都是单位向量且两两正交。

最小二乘法

已知 $y=k_1x_1+\dots +k_nx_n$ ，进行了 $m\ge n$ 次试验得到了 $m$ 组数据：

$A=(a_1,\dots a_n)$ ，其中 $a_i=(x_i^{(1)},\dots,x_i^{(m)})^T$ ；
$b=(y^{(1)},\dots,y^{(m)})^T$ 。

设 $k=(k_1,\dots,k_n)^T$ ，求解参数 $k$ 等价于求 $b$ 在酉空间 $span\{a_1,\dots,a_n\}$ 上的最佳逼近（投影）。

亦即求解 $A^HAk=A^Hb$ 。

矩阵的分解

三角分解

单位上三角矩阵：上三角矩阵的对角线全为1 。

单位上三角矩阵的乘积仍然是单位上三角矩阵，逆也是。

LR分解定理：设 $A\in\mathbb{C}^{n\times n}$ 是非奇异矩阵（满秩、可逆、行列式非零），则存在唯一的单位下三角矩阵 $L$ 和上三角矩阵 $R$ 使得 $A = L R$ 的充分必要条件是 $A$ 的顺序主子式均非零（定理中上下可交换）。

LR分解方法：

根据LR分解里面的 $R$ ，考虑到

进而可以得到LDR分解： $A = L D R$ ，其中 $L$ 和 $R$ 都是单位三角矩阵。

Hermite矩阵：自共轭矩阵，即 $\overline{a_{ij}}=a_{ji}$ 。

正定矩阵 $\iff$ 矩阵的所有顺序主子式大于0 。

Cholesky分解：设 $A\in\mathbb{C}^{n\times n}$ 是Hermite正定矩阵，则存在下三角矩阵 $G$ ，使得 $A=GG^H$ 。

QR分解

这个定理中的QR矩阵可以通过Schmidt正交化来求得：

而唯一性也很好证明。

设 $u\in\mathbb{C}^n$ 为单位向量，即 $u^Hu=1$ ，称 $H=I-2uu^H$ 为Householder矩阵（初等反射矩阵），由 $H$ 确定的变换 $y = H x$ 称为Householder变换（初等反射变换）。Householder矩阵的性质：

$H^H=H,H^HH=I=H^2$ ；
$H^{-1}=H$ ；
$∣ H ∣ = - 1$ 。

一个定理：设 $e$ 是单位向量， $\forall x\in\mathbb{C}^n$ ，存在Householder矩阵 $H$ ，使得 $Hx=\rho e$ ，其中 $\rho =||x||_2$ ，且 $\rho x^H e$ 是实数。

正规矩阵及Schur分解

Schur引理：方阵（酉/正交）相似于上三角阵

正规矩阵的定义：

$A$ 是正规矩阵 $\iff$ $A$ 酉相似于对角阵（ $U^HAU=diag\{\lambda_1,...,\lambda_n\}$ ）。

关于正规矩阵的一些推论：

推论3：正规三角矩阵是对角矩阵。

实对称阵 $A$ 正交相似于对角阵（ $Q^TAQ=diag\{\lambda_1,...,\lambda_n\}$ ），如何求这个正交阵 $Q$ 呢？

对于 $A$ 的每个特征值 $\lambda$ ，求 $(\lambda I-A)x=0$ 的解空间的基础解系，然后Schmidt正交化为单位正交向量，每个特征值的结果作为列向量拼在一起，就得到了 $Q$ 。

满秩分解

满秩分解表示任一矩阵可以分解为列满秩和行满秩矩阵的乘积：

Hermite标准形：

计算Hermite标准形的方式：

原矩阵 $A$ 和其Hermite标准形 $\hat{A}_r$ 的列向量组具有完全一样的线性关系（线性组合得到零向量的系数一致）。

满秩分解的方式：

奇异值分解

首先介绍了一个引理：

任取 $P\in\mathbb{C}^{m\times n},Q\in\mathbb{C}^{n\times m}$ ，根据换位公式 $|\lambda I-PQ|=\lambda^{|m-n|}|\lambda I-QP|$ ，很容易发现两者具有相同的非零特征值，半正定也直接代入验证即可。

因为 $A^HA$ 半正定，因此其特征值也不小于零，由此有奇异值的定义：

奇异值分解：

奇异值分解的基本步骤：

上面的（以红色横线分割）两种分解方法，实际上是考虑 $m$ 和 $n$ 的大小关系，也就是 $AA^H$ 和 $A^HA$ 的矩阵大小关系，可以选择更容易计算的方法。

极分解：

单纯矩阵的谱分解

回顾：单纯矩阵就是可对角化矩阵，即可相似于对角矩阵。

定义：设 $A\in\mathbb{C}^{n\times n}$ ，若 $A^2=A$ ，则称 $A$ 为幂等阵（或投影阵，投影变换的矩阵就是幂等阵）。

$A$ 为幂等阵 $\iff$ $r (A) + r (I - A) = n$ 。

关于幂等阵的一些性质：

谱分解、谱阵：

谱分解的一般步骤：

关于谱分解的一些推论：

上面第2个推论在矩阵函数中有重要应用。

因为正规矩阵也是单纯矩阵，因此正规矩阵也可以谱分解，它的谱分解的等价关系中，描述为：…… $A$ 是正规阵 $\iff$ 存在 $k$ 个幂等厄尔米特矩阵 $G_1,...,G_k$ ，……（剩下的描述参见上文）

幂等阵对应投影变换，而幂等厄尔米特阵对应正交投影变换。

正规矩阵的谱分解过程可以简化（也就是不用求逆，因为酉矩阵的逆等于共轭转置）：

事实上，正规矩阵 $A$ 可以酉相似于特征值对角阵，写作 $A=Udiag\{\lambda_1,...,\lambda_n\}U^H$ ，令 $G_i=U_iU_i^H$ ，这就是 $A$ 的谱分解，只是有些重根可以化简。

矩阵的广义逆

本章介绍的是 $m\times n$ 矩阵的Penrose广义逆 $A^+$ 。

广义逆矩阵

广义逆矩阵的定义：

注意这四个方程只需满足一个或以上就可以称为广义逆矩阵。因此共有15类广义逆。假设 $G$ 满足第 $i, j$ 两个方程，则记为 $G=A^{(i,j)}$ ，满足所有方程则记为 $G=A^{(1,2,3,4)}$ ，以此类推。

其中， $A^{(1,2,3,4)}=A^+$ 是存在且唯一的，其它各类广义逆不唯一，每类广义逆包含的矩阵集合记作 $A\{i\},A\{i,j\}$ 等，有 $A^{(i)}\in A\{i\}$ 。

15类广义逆中较常见的是 $A\{1\},A\{1,3\},A\{1,4\}$ 以及 $A^+$ 。

$A\{1\}$ 也叫作 ${1\}逆$ ，也叫作减号逆，常记作 $A^-$ ；而 $A^+$ 也叫作加号逆或伪逆。

广义逆矩阵 $A^+$

$A^+$ 的定义（上一节有阐述了）：

当 $A$ 是一个方阵 $A\in\mathbb{C}^{n\times n}$ 且 $|A|\neq 0$ ，则 $A^+=A^{-1}$ 。

一个存在性定理：对任意 $A\in\mathbb{C}^{n\times n}$ ， $A^+$ 存在且唯一。也就是说方阵一定存在唯一的加号逆。（实际上把 $A$ 奇异值分解，每一部分取逆即可）

关于方阵 $A^+$ 的一些性质：

关于常数 $\lambda$ 的加号逆 $\lambda^+$ 以及对角矩阵的加号逆的说明：

$A^+$ 的几种基本求法

满秩分解求 $A^+$ ：

当 $A$ 本身就列满秩，即 $n = r$ 时，满秩分解可以写成 $A=AI_n=FG$ ，此时 $A^+=(A^HA)^{-1}A^H$ ；

当 $A$ 本身就行满秩，即 $m = r$ 时，满秩分解可以写成 $A=I_mA=FG$ ，此时 $A^+=A^H(AA^H)^{-1}$ 。

奇异值分解求 $A^+$ （繁琐，一般用下面简化版的方法）：

更加简化的奇异值分解求 $A^+$ 的方法：

因此求 $A^+$ 可以先求 $A^HA$ 的 $r$ 个非零特征值和标准正交特征向量矩阵 $U_1$ ，然后带入公式即可。

特别的，当 $r (A) = 1$ 时，即非零奇异值只有一个时，有 $A^+=\lambda_1^{-1}A^H=\frac{1}{\sum|a_{ij}|^2}A^H$ 。

谱分解求 $A^+$ （Sylvester公式）：

广义逆与线性方程组

考虑非齐次线性方程组 $A x = b$ ，其中 $A\in\mathbb{C}^{m\times n}$ ， $b\in\mathbb{C}^m$ 给定， $x\in\mathbb{C}^n$ 为待求解向量，若有解则称方程组相容，否则称不相容或矛盾方程组。

根据是否相容，方程组有最小范数解、最小二乘解、最小范数最小二乘解的概念。

线性方程组的相容性、通解与 $A\{1\}$

有一个超级复杂的定理：

由Penrose定理得到两个推论（合理地取 $A, B, D$ 即可推出）：

推论2给出了 $A x = b$ 相容时通解的求法。

注：（别的判定方法）方程组相容的充要条件是 $r(A)=r(\overline{A})$ ，其中 $\overline{A}$ 表示增广矩阵。

因为 $A^+\in A^{(1)}$ ，因此当 $A x = b$ 相容时，通解为
$x=A^+b+(I-A^+A)y, \ y\in\mathbb{C}^n$
并且可以断言，相容方程 $A x = b$ 的解唯一当且仅当 $A$ 列满秩。

然后给出了 $A\{1\}$ 的求法：

并且可以通过初等变换来求 $P$ 和 $Q$ ：

注：这里的“初等变换”， $A$ 和 $I_m$ 是行变换， $A$ 和 $I_n$ 是列变换。

注：当 $A$ 为 $n$ 阶可逆阵时， $A\{1\}=\{QI_nP\}=\{QP\}=A^{-1}$ ，即 $A\{1\}$ 只有唯一的 $A^{-1}$ 。

相容线性方程组的最小范数解与 $A\{1,4\}$

设线性方程组 $A x = b$ 相容，对任意 $A^{(1,4)}\in A\{1,4\}$ ， $A^{(1,4)}b$ 都是最小范数解。注意， $A\{1,4\}$ 可能有无穷多个元，但对其中任意元， $A^{(1,4)}b$ 总是不变的，且为唯一的最小范数解。

反之若 $X\in\mathbb{C}^{n\times m}$ ，对任意的 $b\in\mathbb{C}^m$ ， $X b$ 都为相容方程组 $A x = b$ 的最小范数解，则必有 $X\in A\{1,4\}$ 。

$A\{1,4\}=\{X|XA=A^{(1,4)}A\}=\{X|XA=A^+A\}$ ，即 $A\{1,4\}$ 由方程 $XA=A^{(1,4)}A$ 的所有解构成，由此可得其通式： $A\{1,4\}=\{A^{(1,4)}+Z(I-AA^{(1,4)})|Z\in\mathbb{C}^{n\times m}\}$ 。

但是教材没有给出怎么求 $A^{(1,4)}$ 。

不过因为 $A^+\in A\{1,4\}$ ，因此最小范数解的计算方式就是 $x=A^+b$ 。

不相容方程组的最小二乘解与 $A\{1,3\}$

$A\{1,3\}=\{X|AX=AA^{(1,3)}\}=\{X|AX=AA^+\}$

由此可得通式： $A\{1,3\}=\{A^{(1,3)}+(I-A^{(1,3)}A)Z|Z\in\mathbb{C}^{n\times m}\}$ 。

定理：对任意的 $A^{(1,3)}\in A\{1,3\}$ ， $x=A^{(1,3)}b$ 是不相容方程组 $A x = b$ 的最小二乘解。

另外一个定理：

进而可以得到最小二乘解的通式：

如果 $A$ 是列满秩的，最小二乘解就是唯一的。

不相容方程组的最小范数最小二乘解与 $A^+$

一个引理： $A^+=A^{(1,4)}AA^{(1,3)}$ 。

最小范数最小二乘解的定理：

总结以上有如下表格：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dYv33Llr-1675669736790)(https://dragonylee-blog.oss-cn-beijing.aliyuncs.com/lenovo/202211051047727.png)]

实际上，对于方程组 $A x = b$ ，只要求出 $A^+$ ，则 $A^+b$ 就给出了方程的各种意义下的解。

~~换句话说上面的讨论都没啥意义~~

矩阵分析

向量与矩阵的范数

向量范数的定义：

p-范数的定义：

有限维线性空间任意两种范数都是等价的，即：设 $||\mathbf{x}||_{\alpha}$ 和 $||\mathbf{x}||_{\beta}$ 是有限维线性空间 $V$ 中任两种范数，则存在正整数 $k_1$ 和 $k_2$ ，使得 $\forall\mathbf{x}\in V$ ，都有 $k_1||\mathbf{x}||_{\beta}\le ||\mathbf{x}||_{\alpha}\le k_2||\mathbf{x}||_{\beta}$ 。

由范数引入线性空间中极限的概念：

关于按范数收敛的两个定理：

把矩阵拍扁也可以看成是一个向量，因此上面的定义和定理都可以应用于矩阵的向量范数（广义矩阵范数），而矩阵范数（乘积范数）还需要在向量范数的三条公理上再加上一条相容性：

设 $\mathbf{A}\in\mathbb{C}^{n\times n}$ ，则矩阵的F-范数定义为： $||\mathbf{A}||_F=(\sum\limits_{i,j=1}^n |a_{ij}|^2)^{\frac{1}{2}}=(\text{tr}(\mathbf{A}^H\mathbf{A}))^{\frac{1}{2}}$ 。