Chapter5 MATH1408
矩阵的相似变换与特征值理论
1. 矩阵的相似 (Similarity) 与对角化 (Diagonalization)
1.1 相似矩阵 (Similar Matrices)
定义: 设 $A, B$ 都是 $n$ 阶方阵。如果存在一个 $n$ 阶可逆矩阵 $P$,使得
$P^{-1}AP = B$
则称矩阵 $A$ 相似于 (similar to) 矩阵 $B$,记作 $A \sim B$。称 $P$ 为将 $A$ 变换为 $B$ 的相似变换矩阵。相似矩阵的性质:
- 自反性: $A \sim A$ (取 $P=E$, 单位矩阵)
- 对称性: 若 $A \sim B$,则 $B \sim A$ (若 $P^{-1}AP = B$,则 $(P^{-1})^{-1}BP^{-1} = A$)
- 传递性: 若 $A \sim B$,$B \sim C$,则 $A \sim C$
- 相似矩阵有相同的特征多项式,因此有相同的特征值、行列式、迹。
- 若 $A \sim B$,则 $A^k \sim B^k$ 对任意正整数 $k$ 成立。
- 若 $A \sim B$ 且 $A$ 可逆,则 $B$ 也可逆,且 $A^{-1} \sim B^{-1}$。
定理: 若 $A \sim B$,即 $P^{-1}AP = B$,则对任意多项式 $g(x)$,有 $P^{-1}g(A)P = g(B)$。
- 证明:
设 $g(x) = b_m x^m + b_{m-1} x^{m-1} + \dots + b_1 x + b_0$。
则 $g(A) = b_m A^m + b_{m-1} A^{m-1} + \dots + b_1 A + b_0 E$。
因为 $B = P^{-1}AP$,所以 $A = PBP^{-1}$。
$A^k = (PBP^{-1})^k = (PBP^{-1})(PBP^{-1})\dots(PBP^{-1}) = PB^kP^{-1}$。
因此,
$P^{-1}g(A)P = P^{-1}(b_m A^m + \dots + b_0 E)P$
$= b_m P^{-1}A^m P + \dots + b_1 P^{-1}AP + b_0 P^{-1}EP$
$= b_m (P^{-1}AP)^m + \dots + b_1 (P^{-1}AP) + b_0 E$ (或者使用 $A^k=PB^kP^{-1}$)
$= b_m B^m + \dots + b_1 B + b_0 E = g(B)$。
□
- 证明:
1.2 矩阵的对角化 (Diagonalization)
定义: 如果一个 $n$ 阶方阵 $A$ 相似于一个对角矩阵 $\Lambda$,即存在可逆矩阵 $P$ 使得
$P^{-1}AP = \Lambda = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)$
则称矩阵 $A$ 可对角化 (diagonalizable)。Jordan标准型 (Jordan Canonical Form):
- 并非所有矩阵都可对角化。
- 任何一个复数域上的 $n$ 阶方阵 $A$ 都相似于一个 Jordan标准型矩阵 $J$。
- $J = \text{diag}(J_1(\lambda_1), J_2(\lambda_2), \dots, J_k(\lambda_k))$
- 其中 $J_i(\lambda_i)$ 是对应于特征值 $\lambda_i$ 的 Jordan块,形如:
$J_r(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}_{r \times r}$ - 若矩阵 $A$ 可对角化,则其Jordan标准型就是对角矩阵 (所有Jordan块都是 $1 \times 1$)。
2. 特征值 (Eigenvalues) 与特征向量 (Eigenvectors)
2.1 定义
- 设 $A$ 是一个 $n$ 阶方阵。如果存在一个数 $\lambda$ 和一个非零的 $n$ 维列向量 $\alpha$,使得
$A\alpha = \lambda\alpha$
则称 $\lambda$ 是矩阵 $A$ 的一个特征值 (eigenvalue),称非零向量 $\alpha$ 是矩阵 $A$ 对应于特征值 $\lambda$ 的一个特征向量 (eigenvector)。
2.2 特征方程与特征多项式
- 特征值方程 $A\alpha = \lambda\alpha$ 可以改写为 $(\lambda E - A)\alpha = 0$。
- 这是一个齐次线性方程组。它有非零解 $\alpha$ 的充要条件是系数行列式为零:
$|\lambda E - A| = 0$
这个方程称为矩阵 $A$ 的特征方程 (characteristic equation)。 - $f_A(\lambda) = |\lambda E - A|$ 称为矩阵 $A$ 的特征多项式 (characteristic polynomial)。它是一个关于 $\lambda$ 的 $n$ 次多项式。
$f_A(\lambda) = \begin{vmatrix} \lambda - a_{11} & -a_{12} & \dots & -a_{1n} \\ -a_{21} & \lambda - a_{22} & \dots & -a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n1} & -a_{n2} & \dots & \lambda - a_{nn} \end{vmatrix} = \lambda^n - (\text{tr}A)\lambda^{n-1} + \dots + (-1)^n |A|$ - 特征值是特征方程的根。根据代数基本定理,一个 $n$ 次多项式在复数域内恰有 $n$ 个根 (计重数)。
2.3 特征子空间 (Eigenspace)
- 对于矩阵 $A$ 的一个特征值 $\lambda_0$,齐次线性方程组 $(\lambda_0 E - A)\alpha = 0$ 的解空间 $V_{\lambda_0} = \{\alpha | (\lambda_0 E - A)\alpha = 0\}$ 称为对应于特征值 $\lambda_0$ 的特征子空间。
- 特征子空间中的所有非零向量都是对应于 $\lambda_0$ 的特征向量,再加上零向量。
2.4 特征值的性质
- 定理: 设 $\lambda_1, \lambda_2, \dots, \lambda_n$ 是 $n$ 阶矩阵 $A=(a_{ij})$ 的 $n$ 个特征值 (计重数)。则:
- $\sum_{i=1}^n \lambda_i = \sum_{i=1}^n a_{ii} = \text{tr}(A)$ (特征值之和等于矩阵的迹)
- $\prod_{i=1}^n \lambda_i = |A|$ (特征值之积等于矩阵的行列式)
- 证明概要:
特征多项式 $f_A(\lambda) = |\lambda E - A| = (\lambda - \lambda_1)(\lambda - \lambda_2)\dots(\lambda - \lambda_n)$。
同时,$f_A(\lambda) = \lambda^n - (a_{11}+\dots+a_{nn})\lambda^{n-1} + \dots + (-1)^n|A|$。
比较 $\lambda^{n-1}$ 的系数:$-(a_{11}+\dots+a_{nn}) = -(\lambda_1+\dots+\lambda_n)$,得 $\sum \lambda_i = \text{tr}(A)$。
比较常数项 (令 $\lambda=0$): $|-A| = (-1)^n |A| = (-\lambda_1)(-\lambda_2)\dots(-\lambda_n) = (-1)^n \prod \lambda_i$,得 $\prod \lambda_i = |A|$。
□
- 更一般地,特征值 $\lambda_{j_1}, \dots, \lambda_{j_k}$ 的所有 $k$ 阶初等对称多项式之和等于 $A$ 的所有 $k$ 阶主子式之和。
2.5 特征向量的线性无关性
- 定理: 设 $\lambda_1, \lambda_2, \dots, \lambda_s$ 是矩阵 $A$ 的 $s$ 个互不相同的特征值,$\alpha_1, \alpha_2, \dots, \alpha_s$ 分别是与之对应的特征向量,则 $\alpha_1, \alpha_2, \dots, \alpha_s$ 线性无关。
- 证明 (数学归纳法):
当 $s=1$ 时,$\alpha_1 \ne 0$,显然线性无关。
假设当 $s=k-1$ 时结论成立。考虑 $s=k$ 的情况。
设 $c_1\alpha_1 + c_2\alpha_2 + \dots + c_k\alpha_k = 0 \quad (*)$。
用 $A$ 左乘 $(*)$ 式:$c_1 A\alpha_1 + c_2 A\alpha_2 + \dots + c_k A\alpha_k = 0$
即 $c_1 \lambda_1\alpha_1 + c_2 \lambda_2\alpha_2 + \dots + c_k \lambda_k\alpha_k = 0 \quad (**)$。
用 $\lambda_k$ 乘 $(*)$ 式:$c_1 \lambda_k\alpha_1 + c_2 \lambda_k\alpha_2 + \dots + c_k \lambda_k\alpha_k = 0 \quad (***)$。
$(**)-(***)$ 得:$c_1(\lambda_1-\lambda_k)\alpha_1 + c_2(\lambda_2-\lambda_k)\alpha_2 + \dots + c_{k-1}(\lambda_{k-1}-\lambda_k)\alpha_{k-1} = 0$。
根据归纳假设,$\alpha_1, \dots, \alpha_{k-1}$ 线性无关。
又因为 $\lambda_i \ne \lambda_k$ for $i=1, \dots, k-1$,所以 $\lambda_i - \lambda_k \ne 0$。
因此 $c_1=c_2=\dots=c_{k-1}=0$。
代回 $(*)$ 式,得 $c_k\alpha_k=0$。由于 $\alpha_k \ne 0$,故 $c_k=0$。
所以 $c_1=c_2=\dots=c_k=0$,即 $\alpha_1, \dots, \alpha_k$ 线性无关。
□
- 证明 (数学归纳法):
2.6 代数重数与几何重数
- 代数重数 (Algebraic Multiplicity): 特征值 $\lambda_i$ 作为特征方程 $f_A(\lambda)=0$ 的根的重数,记为 $n_i$。
$\sum n_i = n$ (矩阵阶数)。 几何重数 (Geometric Multiplicity): 特征值 $\lambda_i$ 对应的特征子空间 $V_{\lambda_i}$ 的维数,即线性无关特征向量的最大个数,记为 $g_i$。
$g_i = \text{dim}(V_{\lambda_i}) = n - \text{rank}(\lambda_i E - A)$。定理: 对任意特征值 $\lambda_i$,其几何重数 $g_i$ 不大于其代数重数 $n_i$。即 $1 \le g_i \le n_i$。
- 证明:
设 $\lambda_0$ 是 $A$ 的一个特征值,其几何重数为 $g_0$。则存在 $g_0$ 个线性无关的特征向量 $\alpha_1, \dots, \alpha_{g_0}$ 使得 $A\alpha_j = \lambda_0\alpha_j$ for $j=1, \dots, g_0$。
将这 $g_0$ 个向量扩充为 $n$ 维空间的一组基 $\alpha_1, \dots, \alpha_{g_0}, \alpha_{g_0+1}, \dots, \alpha_n$。
令 $P = (\alpha_1, \dots, \alpha_n)$。则 $P$ 可逆。
$AP = (A\alpha_1, \dots, A\alpha_{g_0}, A\alpha_{g_0+1}, \dots, A\alpha_n) = (\lambda_0\alpha_1, \dots, \lambda_0\alpha_{g_0}, A\alpha_{g_0+1}, \dots, A\alpha_n)$。
$P^{-1}AP = P^{-1} (\lambda_0\alpha_1, \dots, \lambda_0\alpha_{g_0}, A\alpha_{g_0+1}, \dots, A\alpha_n)$。
由于 $P^{-1}P = E$, $P^{-1}\alpha_j = e_j$ (标准单位向量) for $j=1, \dots, n$ (这里理解为 $P^{-1}$ 作用于 $P$ 的列向量)。
所以 $P^{-1}AP = \begin{pmatrix} \lambda_0 E_{g_0} & B_{12} \\ O & B_{22} \end{pmatrix}$。
由于相似矩阵有相同的特征多项式,
$f_A(\lambda) = f_{P^{-1}AP}(\lambda) = |\lambda E - P^{-1}AP| = \begin{vmatrix} (\lambda-\lambda_0)E_{g_0} & -B_{12} \\ O & \lambda E_{n-g_0} - B_{22} \end{vmatrix}$
$= |(\lambda-\lambda_0)E_{g_0}| \cdot |\lambda E_{n-g_0} - B_{22}| = (\lambda-\lambda_0)^{g_0} |\lambda E_{n-g_0} - B_{22}|$。
这表明 $(\lambda-\lambda_0)$ 至少是 $f_A(\lambda)$ 的 $g_0$ 次因子,所以 $\lambda_0$ 的代数重数 $n_0 \ge g_0$。
□
- 证明:
3. 矩阵可对角化的条件
定理 1: $n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 有 $n$ 个线性无关的特征向量。
- 证明:
($\Rightarrow$) 若 $A$ 可对角化,则存在可逆 $P$ 使 $P^{-1}AP = \Lambda = \text{diag}(\lambda_1, \dots, \lambda_n)$。
$AP = P\Lambda$。令 $P = (p_1, p_2, \dots, p_n)$。
$A(p_1, \dots, p_n) = (p_1, \dots, p_n) \begin{pmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{pmatrix}$
$(Ap_1, \dots, Ap_n) = (\lambda_1 p_1, \dots, \lambda_n p_n)$。
即 $Ap_j = \lambda_j p_j$ for $j=1, \dots, n$。
由于 $P$ 可逆,其列向量 $p_1, \dots, p_n$ 线性无关且非零。因此它们是 $A$ 的 $n$ 个线性无关的特征向量。
($\Leftarrow$) 若 $A$ 有 $n$ 个线性无关的特征向量 $p_1, \dots, p_n$,对应特征值为 $\lambda_1, \dots, \lambda_n$ (不必互异)。
令 $P = (p_1, \dots, p_n)$。则 $P$ 可逆。
$AP = (Ap_1, \dots, Ap_n) = (\lambda_1 p_1, \dots, \lambda_n p_n)$
$= (p_1, \dots, p_n) \begin{pmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{pmatrix} = P\Lambda$。
所以 $P^{-1}AP = \Lambda$。$A$ 可对角化。
□
- 证明:
定理 2: $n$ 阶方阵 $A$ 可对角化的充要条件是 $A$ 的每个特征值 $\lambda_i$ 的几何重数 $g_i$ 等于其代数重数 $n_i$。
- 证明概要:
($\Rightarrow$) 若 $A$ 可对角化, $A \sim \Lambda = \text{diag}(\underbrace{\lambda_1,\dots,\lambda_1}_{n_1 \text{ times}}, \dots, \underbrace{\lambda_s,\dots,\lambda_s}_{n_s \text{ times}})$.
则 $g_k = n - \text{rank}(\lambda_k E - A) = n - \text{rank}(\lambda_k E - \Lambda)$.
$\lambda_k E - \Lambda$ 是对角矩阵,对角线上有 $n-n_k$ 个非零元,所以 $\text{rank}(\lambda_k E - \Lambda) = n-n_k$.
故 $g_k = n - (n-n_k) = n_k$.
($\Leftarrow$) 若对每个特征值 $\lambda_i$ 都有 $g_i = n_i$.
设 $A$ 有 $s$ 个互异特征值 $\lambda_1, \dots, \lambda_s$,代数重数分别为 $n_1, \dots, n_s$ ( $\sum n_i = n$ )。
则对应的几何重数 $g_i=n_i$。这意味着我们可以为每个 $\lambda_i$ 找到 $n_i$ 个线性无关的特征向量。
所有这些特征向量集合的总数为 $\sum g_i = \sum n_i = n$。
不同特征子空间的特征向量是线性无关的。同一特征子空间内部选取的基向量也是线性无关的。
因此,这 $n$ 个特征向量共同构成了 $n$ 维空间的一组基,即 $A$ 有 $n$ 个线性无关的特征向量。由定理1,$A$ 可对角化。
□
- 证明概要:
推论: 如果 $n$ 阶方阵 $A$ 有 $n$ 个互不相同的特征值,则 $A$ 一定可以对角化。
- 证明: 若 $A$ 有 $n$ 个互异特征值 $\lambda_1, \dots, \lambda_n$,则每个特征值的代数重数 $n_i=1$。
又因为 $1 \le g_i \le n_i$,所以 $g_i=1$。
因此 $g_i=n_i=1$ 对所有 $i$ 成立。由定理2,$A$ 可对角化。
(或者直接由特征向量线性无关性定理,$A$ 有 $n$ 个线性无关的特征向量,由定理1,$A$ 可对角化)。
□
- 证明: 若 $A$ 有 $n$ 个互异特征值 $\lambda_1, \dots, \lambda_n$,则每个特征值的代数重数 $n_i=1$。
对角化步骤总结:
- 求 $A$ 的特征多项式 $|\lambda E - A| = 0$。
- 解特征方程,得到所有特征值 $\lambda_1, \dots, \lambda_s$ 及其代数重数 $n_1, \dots, n_s$。
- 对每个特征值 $\lambda_i$,解齐次方程组 $(\lambda_i E - A)X = 0$,求出基础解系。基础解系的个数即为几何重数 $g_i$。
- 若对所有 $i$ 都有 $g_i = n_i$,则 $A$ 可对角化。将所有基础解系中的向量合起来构成可逆矩阵 $P$。则 $P^{-1}AP = \Lambda$,其中 $\Lambda$ 的对角元是 $P$ 中列向量对应的特征值。
- 若存在某个 $i$ 使得 $g_i < n_i$,则 $A$ 不可对角化。
4. 特征值估计:Gershgorin 圆盘定理 (Gershgorin Circle Theorem)
Gershgorin 圆盘: 对 $n$ 阶复矩阵 $A=(a_{ij})$,第 $i$ 个 Gershgorin圆盘 $D_i(A)$ 定义为复平面上的一个闭圆盘:
$D_i(A) = \{ z \in \mathbb{C} : |z - a_{ii}| \le R_i(A) \}$
其中 $a_{ii}$ 是圆心,$R_i(A) = \sum_{j \ne i} |a_{ij}|$ 是半径 (第 $i$ 行非对角元素绝对值之和)。
类似地,可以定义列圆盘 $D’_j(A) = \{ z \in \mathbb{C} : |z - a_{jj}| \le C_j(A) \}$,其中 $C_j(A) = \sum_{i \ne j} |a_{ij}|$ (第 $j$ 列非对角元素绝对值之和)。定理 1 (Gershgorin第一定理): 矩阵 $A$ 的所有特征值都位于所有行Gershgorin圆盘的并集内,即 $\lambda \in \bigcup_{i=1}^n D_i(A)$。类似地,所有特征值也位于所有列Gershgorin圆盘的并集内 $\lambda \in \bigcup_{j=1}^n D’_j(A)$。
- 证明 (行圆盘):
设 $\lambda$ 是 $A$ 的一个特征值,$\alpha=(x_1, \dots, x_n)^T \ne 0$ 是对应的特征向量,即 $A\alpha = \lambda\alpha$。
展开第 $i$ 行:$\sum_{j=1}^n a_{ij}x_j = \lambda x_i$。
移项得:$(\lambda - a_{ii})x_i = \sum_{j \ne i} a_{ij}x_j$。
选取 $k$ 使得 $|x_k| = \max_{j} |x_j|$。由于 $\alpha \ne 0$,所以 $|x_k| > 0$。
对于第 $k$ 行,有 $(\lambda - a_{kk})x_k = \sum_{j \ne k} a_{kj}x_j$。
两边取绝对值:$|\lambda - a_{kk}| |x_k| = |\sum_{j \ne k} a_{kj}x_j| \le \sum_{j \ne k} |a_{kj}| |x_j|$。
由于 $|x_j| \le |x_k|$,所以 $|\lambda - a_{kk}| |x_k| \le \sum_{j \ne k} |a_{kj}| |x_k| = |x_k| \sum_{j \ne k} |a_{kj}| = |x_k| R_k(A)$。
因为 $|x_k| > 0$,两边除以 $|x_k|$ 得:$|\lambda - a_{kk}| \le R_k(A)$。
这表明特征值 $\lambda$ 位于第 $k$ 个Gershgorin圆盘 $D_k(A)$ 内。因此 $\lambda \in \bigcup_{i=1}^n D_i(A)$。
列圆盘的证明类似,考虑 $A^T$ (或 $A^H$),其特征值与 $A$ 相同。
□
- 证明 (行圆盘):
定理 2 (Gershgorin第二定理 / Taussky定理): 如果 $k$ 个Gershgorin圆盘的并集 $G = \bigcup_{i \in S_k} D_i(A)$ 与其余 $n-k$ 个圆盘的并集 $H = \bigcup_{j \notin S_k} D_j(A)$ 不相交 (即 $G \cap H = \emptyset$),则 $G$ 中恰好包含 $A$ 的 $k$ 个特征值 (计重数),$H$ 中恰好包含 $A$ 的 $n-k$ 个特征值。
- 证明思路:
构造矩阵 $A(t) = \text{diag}(a_{11}, \dots, a_{nn}) + t \cdot (A - \text{diag}(a_{11}, \dots, a_{nn}))$ for $0 \le t \le 1$。
$A(0) = \text{diag}(a_{11}, \dots, a_{nn})$,其特征值为 $a_{11}, \dots, a_{nn}$。
$A(1) = A$。
矩阵的特征值是其特征多项式系数的连续函数,而特征多项式的系数是矩阵元素的连续函数。因此,特征值是 $t$ 的连续函数。
$A(t)$ 的Gershgorin圆盘为 $D_i(A(t)) = \{z : |z-a_{ii}| \le t R_i(A)\}$。显然 $D_i(A(t)) \subseteq D_i(A(1)) = D_i(A)$。
当 $t=0$ 时,$k$ 个特征值 ($a_{ii}$ for $i \in S_k$) 位于 $G$ 中 (因为 $R_i(A(0))=0$)。
当 $t$ 从 $0$ 连续变到 $1$ 时,特征值也连续变化。由于 $G$ 和 $H$ 不相交,特征值不能从 $G$ “跳到” $H$ (或反之),否则会违背连续性。
因此,原来在 $G$ 中的 $k$ 个特征值 (当 $t=0$ 时) 必须在 $t=1$ 时仍然停留在 $G$ 中。
□
- 证明思路:
推论 (严格对角占优矩阵): 如果矩阵 $A$ 是严格对角占优的,即对所有 $i$, $|a_{ii}| > \sum_{j \ne i} |a_{ij}|$ (或列严格对角占优),则 $A$ 是可逆的。
- 证明: 若 $A$ 严格对角占优,则对所有 $i$,$R_i(A) < |a_{ii}|$。这意味着 $0$ 不在任何一个Gershgorin圆盘 $D_i(A)$ 内 (因为 $|0 - a_{ii}| = |a_{ii}| > R_i(A)$)。
因此,$0$ 不在 $\bigcup D_i(A)$ 内。根据Gershgorin第一定理, $0$ 不是 $A$ 的特征值。
所以 $A$ 可逆。
□
- 证明: 若 $A$ 严格对角占优,则对所有 $i$,$R_i(A) < |a_{ii}|$。这意味着 $0$ 不在任何一个Gershgorin圆盘 $D_i(A)$ 内 (因为 $|0 - a_{ii}| = |a_{ii}| > R_i(A)$)。
Ostrowski定理: 对任意 $p \in [0, 1]$,矩阵 $A$ 的任一特征值 $\lambda$ 必满足至少存在一个 $i \in \{1, \dots, n\}$ 使得:
$|\lambda - a_{ii}| \le (R_i(A))^p (C_i(A))^{1-p}$
(当 $p=1$ 时是行圆盘,当 $p=0$ 时是列圆盘)。Brauer’s Cassini Ovals: 矩阵 $A$ 的所有特征值包含在由下式定义的 $n(n-1)/2$ 个 Cassini 卵形线的并集中:
$\bigcup_{1 \le i < j \le n} \{z \in \mathbb{C} : |z-a_{ii}||z-a_{jj}| \le R_i(A)R_j(A) \}$
5. Schur 定理与正规矩阵
5.1 Schur 分解定理 (Schur’s Theorem / Schur’s Triangularization)
- 酉矩阵 (Unitary Matrix): 若复方阵 $U$ 满足 $U^H U = U U^H = E$ (其中 $U^H$ 是 $U$ 的共轭转置),则称 $U$ 为酉矩阵。若实方阵 $Q$ 满足 $Q^T Q = Q Q^T = E$,则称 $Q$ 为正交矩阵。
酉相似 (Unitary Similarity): 若存在酉矩阵 $U$ 使得 $U^H A U = B$,则称 $A$ 酉相似于 $B$。
定理 (Schur): 对任意 $n$ 阶复方阵 $A$,存在一个酉矩阵 $U$,使得
$U^H A U = T$
其中 $T$ 是一个上三角矩阵。并且 $T$ 的对角元是 $A$ 的特征值。
若 $A$ 是实矩阵且特征值均为实数,则 $U$ 可以取为正交矩阵 $Q$,使得 $Q^T A Q = T$ (实Schur分解)。- 证明 (数学归纳法对矩阵阶数 $n$):
当 $n=1$ 时,$A=(a_{11})$ 是标量,$U=(1)$,$T=(a_{11})$,结论成立。
假设对任意 $k$ 阶矩阵结论成立。考虑 $n=k+1$ 阶矩阵 $A$。
设 $\lambda_1$ 是 $A$ 的一个特征值,$\alpha_1$ 是对应的单位特征向量 (即 $||\alpha_1||_2=1$),所以 $A\alpha_1 = \lambda_1\alpha_1$。
可以将 $\alpha_1$ 扩充为 $\mathbb{C}^{k+1}$ 的一组标准正交基 $\{\alpha_1, \alpha_2, \dots, \alpha_{k+1}\}$。
令 $U_1 = (\alpha_1, \alpha_2, \dots, \alpha_{k+1})$。则 $U_1$ 是酉矩阵。
$U_1^H A U_1 = U_1^H (A\alpha_1, A\alpha_2, \dots, A\alpha_{k+1})$
$= U_1^H (\lambda_1\alpha_1, A\alpha_2, \dots, A\alpha_{k+1})$
$= \begin{pmatrix} \alpha_1^H \\ \vdots \\ \alpha_{k+1}^H \end{pmatrix} (\lambda_1\alpha_1, A\alpha_2, \dots, A\alpha_{k+1}) = \begin{pmatrix} \lambda_1\alpha_1^H\alpha_1 & \alpha_1^H A\alpha_2 & \dots & \alpha_1^H A\alpha_{k+1} \\ \lambda_1\alpha_2^H\alpha_1 & \alpha_2^H A\alpha_2 & \dots & \alpha_2^H A\alpha_{k+1} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda_1\alpha_{k+1}^H\alpha_1 & \alpha_{k+1}^H A\alpha_2 & \dots & \alpha_{k+1}^H A\alpha_{k+1} \end{pmatrix}$
由于 $\alpha_i^H \alpha_j = \delta_{ij}$ (Kronecker delta),第一列变为 $(\lambda_1, 0, \dots, 0)^T$。
所以 $U_1^H A U_1 = \begin{pmatrix} \lambda_1 & \mathbf{b}^H \\ \mathbf{0} & A_k \end{pmatrix}$,其中 $A_k$ 是一个 $k$ 阶方阵。
根据归纳假设,存在 $k$ 阶酉矩阵 $V_k$ 使得 $V_k^H A_k V_k = T_k$ (上三角)。
令 $U = U_1 \begin{pmatrix} 1 & \mathbf{0}^T \\ \mathbf{0} & V_k \end{pmatrix}$。这个 $U$ 也是酉矩阵 (两个酉矩阵之积)。
$U^H A U = \begin{pmatrix} 1 & \mathbf{0}^T \\ \mathbf{0} & V_k^H \end{pmatrix} U_1^H A U_1 \begin{pmatrix} 1 & \mathbf{0}^T \\ \mathbf{0} & V_k \end{pmatrix}$
$= \begin{pmatrix} 1 & \mathbf{0}^T \\ \mathbf{0} & V_k^H \end{pmatrix} \begin{pmatrix} \lambda_1 & \mathbf{b}^H \\ \mathbf{0} & A_k \end{pmatrix} \begin{pmatrix} 1 & \mathbf{0}^T \\ \mathbf{0} & V_k \end{pmatrix}$
$= \begin{pmatrix} \lambda_1 & \mathbf{b}^H V_k \\ \mathbf{0} & V_k^H A_k V_k \end{pmatrix} = \begin{pmatrix} \lambda_1 & \mathbf{b}^H V_k \\ \mathbf{0} & T_k \end{pmatrix} = T$。
$T$ 是上三角矩阵。其对角元是 $A$ 的特征值 (因为相似矩阵特征值相同)。
□
- 证明 (数学归纳法对矩阵阶数 $n$):
5.2 正规矩阵 (Normal Matrix)
定义: 若 $n$ 阶复方阵 $A$ 满足 $A^H A = A A^H$,则称 $A$ 为正规矩阵。
- 常见的正规矩阵:
- Hermitian 矩阵 ($A^H = A$),实对称矩阵 ($A^T=A$)
- Skew-Hermitian 矩阵 ($A^H = -A$),实反对称矩阵 ($A^T=-A$)
- 酉矩阵 ($A^H A = E$),正交矩阵 ($A^T A = E$)
- 对角矩阵
- 常见的正规矩阵:
定理: $n$ 阶复方阵 $A$ 是正规矩阵的充要条件是 $A$ 酉相似于一个对角矩阵 (即 $A$ 可以被酉矩阵对角化)。
- 证明:
($\Leftarrow$) 若存在酉矩阵 $U$ 使得 $U^H A U = \Lambda$ (对角矩阵)。
则 $A = U \Lambda U^H$。
$A^H = (U \Lambda U^H)^H = U \Lambda^H U^H$。
$A A^H = (U \Lambda U^H)(U \Lambda^H U^H) = U \Lambda \Lambda^H U^H$。
$A^H A = (U \Lambda^H U^H)(U \Lambda U^H) = U \Lambda^H \Lambda U^H$。
因为 $\Lambda$ 是对角矩阵,所以 $\Lambda \Lambda^H = \Lambda^H \Lambda$ (对角矩阵与其共轭转置可交换)。
因此 $A A^H = A^H A$,即 $A$ 是正规矩阵。
($\Rightarrow$) 若 $A$ 是正规矩阵。根据Schur定理,存在酉矩阵 $U$ 使得 $U^H A U = T$ ($T$ 是上三角矩阵)。
我们需要证明 $T$ 实际上是对角矩阵。
因为 $A$ 正规,所以 $T = U^H A U$ 也是正规矩阵。
($T^H T = (U^H A U)^H (U^H A U) = U^H A^H U U^H A U = U^H A^H A U$)
($T T^H = (U^H A U) (U^H A U)^H = U^H A U U^H A^H U = U^H A A^H U$)
由于 $A^H A = A A^H$,所以 $T^H T = T T^H$。
设 $T = (t_{ij})$,其中 $t_{ij}=0$ for $i>j$。
比较 $T^H T$ 和 $T T^H$ 的 $(1,1)$ 元素:
$(T^H T)_{11} = \sum_k \overline{t_{k1}} t_{k1} = |t_{11}|^2$ (因为 $t_{k1}=0$ for $k>1$)。
$(T T^H)_{11} = \sum_k t_{1k} \overline{t_{1k}} = |t_{11}|^2 + |t_{12}|^2 + \dots + |t_{1n}|^2$。
由于 $(T^H T)_{11} = (T T^H)_{11}$,所以 $|t_{11}|^2 = |t_{11}|^2 + |t_{12}|^2 + \dots + |t_{1n}|^2$。
这迫使 $t_{12} = t_{13} = \dots = t_{1n} = 0$。
现在比较 $(2,2)$ 元素:
$(T^H T)_{22} = \overline{t_{12}}t_{12} + \overline{t_{22}}t_{22} + \dots = |t_{12}|^2 + |t_{22}|^2 = |t_{22}|^2$ (因为 $t_{12}=0$)。
$(T T^H)_{22} = |t_{21}|^2 + |t_{22}|^2 + |t_{23}|^2 + \dots + |t_{2n}|^2 = |t_{22}|^2 + |t_{23}|^2 + \dots + |t_{2n}|^2$ (因为 $t_{21}=0$ due to upper triangular)。
所以 $|t_{22}|^2 = |t_{22}|^2 + |t_{23}|^2 + \dots + |t_{2n}|^2$。
这迫使 $t_{23} = t_{24} = \dots = t_{2n} = 0$。
以此类推,可以证明 $T$ 的所有非对角元素都为0。因此 $T$ 是对角矩阵。
□
- 证明:
Schur 不等式: 若 $\lambda_1, \dots, \lambda_n$ 是 $A=(a_{ij})$ 的特征值,则 $\sum_{i=1}^n |\lambda_i|^2 \le \sum_{i=1}^n \sum_{j=1}^n |a_{ij}|^2 = ||A||_F^2$ (Frobenius范数的平方)。
等号成立的充要条件是 $A$ 是正规矩阵。- 证明:
由Schur分解,$U^H A U = T$,其中 $T$ 是上三角,对角元为 $\lambda_i$。
$||A||_F^2 = \text{tr}(A^H A)$。由于迹在酉相似下不变:
$\text{tr}(A^H A) = \text{tr}((UTU^H)^H (UTU^H)) = \text{tr}(U T^H U^H U T U^H) = \text{tr}(U T^H T U^H) = \text{tr}(T^H T)$。
$T^H T$ 的对角元是 $\sum_{k=1}^i |t_{ki}|^2$ (这里假设 $T$ 是下三角,或者直接算 $\text{tr}(T^H T) = \sum_{i,j} |t_{ij}|^2$)。
$\text{tr}(T^H T) = \sum_{i=1}^n (T^H T)_{ii} = \sum_{i=1}^n \sum_{k=1}^n \overline{t_{ki}} t_{ki} = \sum_{i,j} |t_{ij}|^2$。
由于 $T$ 是上三角,其对角元 $t_{ii} = \lambda_i$。
所以 $\sum_{i,j} |t_{ij}|^2 = \sum_{i=1}^n |t_{ii}|^2 + \sum_{i<j} |t_{ij}|^2 = \sum_{i=1}^n |\lambda_i|^2 + \sum_{i<j} |t_{ij}|^2$。
因此 $\sum_{i=1}^n |\lambda_i|^2 + \sum_{i<j} |t_{ij}|^2 = ||A||_F^2$。
由于 $\sum_{i<j} |t_{ij}|^2 \ge 0$,所以 $\sum_{i=1}^n |\lambda_i|^2 \le ||A||_F^2$。
等号成立当且仅当 $\sum_{i<j} |t_{ij}|^2 = 0$,即所有非对角元 $t_{ij}=0$ ($i<j$)。
这意味着 $T$ 是对角矩阵。当 $T$ 是对角矩阵时,$A$ 酉相似于对角矩阵,因此 $A$ 是正规矩阵。
□
- 证明:
5.3 特殊的正规矩阵
Hermitian 矩阵 ($A^H=A$):
- 特征值必为实数。
- 不同特征值对应的特征向量相互正交。
- 必酉相似于实对角矩阵。
实对称矩阵 ($A^T=A$):
- 是Hermitian矩阵的特例,特征值必为实数。
- 必正交相似于实对角矩阵 ($Q^T A Q = \Lambda$)。
酉矩阵 ($A^H A = E$):
- 特征值的模长必为1 (即 $|\lambda|=1$)。
- 不同特征值对应的特征向量相互正交。
- 必酉相似于对角元模长为1的对角矩阵。
实正规矩阵:
- 若 $A$ 是实正规矩阵 ($A^T A = A A^T$),则 $A$ 正交相似于一个实分块对角矩阵,其对角块为 $1 \times 1$ 的实特征值,或 $2 \times 2$ 的形如 $\begin{pmatrix} a & b \\ -b & a \end{pmatrix}$ (对应共轭复特征值 $a \pm ib, b \ne 0$) 的块。
5.4 谱分解 (Spectral Decomposition)
定理 (正规矩阵的谱分解): 设 $A$ 是 $n$ 阶正规矩阵,$\lambda_1, \dots, \lambda_n$ 是其特征值 (不必互异),$u_1, \dots, u_n$ 是对应的一组标准正交特征向量。则 $A$ 可以表示为:
$A = \sum_{i=1}^n \lambda_i u_i u_i^H$
如果 $A$ 有 $s$ 个互异特征值 $\lambda_1, \dots, \lambda_s$,则 $A = \sum_{j=1}^s \lambda_j P_j$,其中 $P_j = \sum_{u_k \in V_{\lambda_j}} u_k u_k^H$ 是到特征子空间 $V_{\lambda_j}$ 的正交投影算子。这些投影算子满足 $P_j^H=P_j$, $P_j^2=P_j$, $P_i P_j = O$ ($i \ne j$), $\sum_{j=1}^s P_j = E$。- 证明:
因为 $A$ 正规,所以 $A = U \Lambda U^H$,其中 $U=(u_1, \dots, u_n)$ 列向量是标准正交特征向量,$\Lambda = \text{diag}(\lambda_1, \dots, \lambda_n)$。
$A = (u_1, \dots, u_n) \begin{pmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{pmatrix} \begin{pmatrix} u_1^H \\ \vdots \\ u_n^H \end{pmatrix}$
$= (u_1, \dots, u_n) \begin{pmatrix} \lambda_1 u_1^H \\ \vdots \\ \lambda_n u_n^H \end{pmatrix} = \lambda_1 u_1 u_1^H + \lambda_2 u_2 u_2^H + \dots + \lambda_n u_n u_n^H$。
□
- 证明:
可对角化矩阵的谱分解 (一般情况):
若 $A$ 可对角化 (不一定是正规的),$P^{-1}AP = \Lambda$。设 $P=(p_1, \dots, p_n)$,$P^{-1} = \begin{pmatrix} q_1^H \\ \vdots \\ q_n^H \end{pmatrix}$ (这里 $q_i^H p_j = \delta_{ij}$)。
则 $A = P \Lambda P^{-1} = \sum_{i=1}^n \lambda_i p_i q_i^H$。
令 $G_i = p_i q_i^H$。则 $G_i$ 是投影算子 (幂等 $G_i^2=G_i$,但通常不是正交投影),且 $G_i G_j = O$ ($i \ne j$), $\sum G_i = E$。
$A = \sum_{j=1}^s \lambda_j G_j’$, 其中 $G_j’$ 是到对应广义特征空间的投影。
Chapter5 MATH1408