Chapter6 MATH1408

矩阵函数及其应用

1. 矩阵序列与矩阵级数 (Sequences and Series of Matrices)

1.1 矩阵序列的极限 (Limit of a Matrix Sequence)

  • 定义: 设 $\{A_n = (a_{ij}^{(n)})\}$ 是一个 $s \times t$ 矩阵序列。如果对所有的 $i, j$,标量序列 $\{a_{ij}^{(n)}\}$ 收敛于 $a_{ij}$,即 $\lim_{n \to \infty} a_{ij}^{(n)} = a_{ij}$,则称矩阵序列 $\{A_n\}$ 收敛于矩阵 $A = (a_{ij})$,记为 $\lim_{n \to \infty} A_n = A$。
  • 例子:
    $\lim_{n \to \infty} \begin{pmatrix} 1 & 1 - \frac{1}{n} \\ \log(1+\frac{1}{n}) & (1+\frac{1}{n})^n \end{pmatrix}^3 = \begin{pmatrix} 1 & 1 \\ 0 & e \end{pmatrix}^3$

1.2 矩阵序列极限的性质 (Properties of Limits of Matrix Sequences)

设 $\lim_{n \to \infty} A_n = A$ 和 $\lim_{n \to \infty} B_n = B$。

  • $\lim_{n \to \infty} (A_n \pm B_n) = A \pm B$
  • $\lim_{n \to \infty} (A_n B_n) = AB$ (如果乘积有意义)
  • (i) $\lim_{n \to \infty} (kA_n) = kA$ (k为标量)
  • (ii) $\lim_{n \to \infty} (BA_nC) = BAC$ (B, C为常数矩阵,使得乘积有意义)
  • (iii) 如果 $f(x)$ 是一个在 $A_n$ 的特征值及 $A$ 的特征值附近解析的函数 (PPT中表述为“任何多项式$f(x)$”,更一般地,如果$f$是连续的,且$A_n \to A$,则$f(A_n) \to f(A)$,特别是对多项式成立)。则 $\lim_{n \to \infty} f(A_n) = f(\lim_{n \to \infty} A_n) = f(A)$。

1.3 矩阵级数 (Series of Matrices)

  • 定义: 设 $\{A_n\}$ ($n=1, 2, \dots$) 是一个矩阵序列。考虑部分和序列 $S_n = A_1 + A_2 + \dots + A_n$。如果序列 $\{S_n\}$ 收敛于矩阵 $S$,则称矩阵级数 $\sum_{n=1}^{\infty} A_n = A_1 + A_2 + \dots + A_n + \dots$ 收敛于 $S$。
  • 性质:
    • (i) 如果矩阵级数 $\sum_{n=1}^{\infty} A_n$ 收敛,则 $\lim_{n \to \infty} A_n = O$ (零矩阵)。(这是收敛的必要条件,非充分条件)
    • (ii) 如果级数 $\sum A_n$ 和 $\sum B_n$ 都收敛,则对于任意标量 $k, l$,级数 $\sum (kA_n + lB_n)$ 收敛,且 $\sum (kA_n + lB_n) = k \sum A_n + l \sum B_n$。

2. 矩阵幂级数与矩阵函数 (Matrix Power Series and Matrix Functions)

2.1 矩阵幂级数 (Power Series of a Matrix)

  • 定义: 对于一个 $n \times n$ 的方阵 $A$,形如 $a_0 E + a_1 A + a_2 A^2 + \dots + a_k A^k + \dots = \sum_{k=0}^{\infty} a_k A^k$ 的级数称为矩阵 $A$ 的幂级数
  • 收敛性:
    • 设标量幂级数 $f(x) = \sum_{k=0}^{\infty} a_k x^k$ 的收敛半径为 $R$。
    • 如果矩阵 $A$ 的所有特征值 $\lambda_i$ 都满足 $|\lambda_i| < R$,则矩阵幂级数 $\sum_{k=0}^{\infty} a_k A^k$ 绝对收敛。(这是一个充分条件)。
    • 更准确地说,级数 $\sum a_k A^k$ 收敛的充要条件是对于 $A$ 的每个Jordan块 $J_m(\lambda)$,级数 $\sum a_k J_m^k(\lambda)$ 收敛。而后者收敛的充要条件是:
      1. $|\lambda| < R$。
      2. 如果 $|\lambda| = R$,则级数 $\sum_{k=0}^{\infty} a_k x^k$ 在 $x=\lambda$ 处收敛,并且其直到 $m-1$ 阶的导数级数也在 $x=\lambda$ 处收敛。

2.2 通过 Jordan 标准型定义矩阵函数

  • 设 $f(x)$ 是一个在包含矩阵 $A$ 的所有特征值的某个区域内解析的函数。
  • 关键思想: 利用 $A$ 的 Jordan 标准型 $J = P^{-1}AP = \text{diag}(J_1, J_2, \dots, J_s)$,其中 $J_i$ 是 Jordan 块。
    则 $f(A) = P f(J) P^{-1} = P \text{diag}(f(J_1), f(J_2), \dots, f(J_s)) P^{-1}$。
  • 计算 $f(J_i)$:
    设 $J_i = \lambda_i E + N_i$ 是一个 $n_i \times n_i$ 的 Jordan 块,其中 $N_i$ 是相应的幂零矩阵 ($N_i^{n_i}=O$)。
    如果 $f(x)$ 在 $\lambda_i$ 处有泰勒展开 $f(x) = f(\lambda_i) + f’(\lambda_i)(x-\lambda_i) + \frac{f’’(\lambda_i)}{2!}(x-\lambda_i)^2 + \dots$
    则 $f(J_i) = f(\lambda_i E + N_i) = f(\lambda_i)E + f’(\lambda_i)N_i + \frac{f’’(\lambda_i)}{2!}N_i^2 + \dots + \frac{f^{(n_i-1)}(\lambda_i)}{(n_i-1)!}N_i^{n_i-1}$。
    (因为 $N_i^k = O$ for $k \ge n_i$)。

    • $f(J_i)$ 的矩阵形式:
      $f(J_i) = \begin{pmatrix}
      f(\lambda_i) & f’(\lambda_i) & \frac{f’’(\lambda_i)}{2!} & \dots & \frac{f^{(n_i-1)}(\lambda_i)}{(n_i-1)!} \\
      0 & f(\lambda_i) & f’(\lambda_i) & \dots & \frac{f^{(n_i-2)}(\lambda_i)}{(n_i-2)!} \\
      \vdots & \ddots & \ddots & \ddots & \vdots \\
      0 & \dots & 0 & f(\lambda_i) & f’(\lambda_i) \\
      0 & \dots & \dots & 0 & f(\lambda_i)
      \end{pmatrix}$
  • 例子:

    • 设 $J = \begin{pmatrix} 3 & 1 & 0 \\ 0 & 3 & 1 \\ 0 & 0 & 3 \end{pmatrix}$。这里 $\lambda=3, n=3$。
    • 计算 $e^J$: $f(x)=e^x, f’(x)=e^x, f’’(x)=e^x$。
      $e^J = \begin{pmatrix}
      e^3 & e^3 & \frac{e^3}{2!} \\
      0 & e^3 & e^3 \\
      0 & 0 & e^3
      \end{pmatrix}$
    • 计算 $\sin J$: $f(x)=\sin x, f’(x)=\cos x, f’’(x)=-\sin x$。
      $\sin J = \begin{pmatrix}
      \sin 3 & \cos 3 & \frac{-\sin 3}{2!} \\
      0 & \sin 3 & \cos 3 \\
      0 & 0 & \sin 3
      \end{pmatrix}$
  • 定理 (矩阵函数收敛性):
    设幂级数 $f(x) = \sum a_n x^n$ 的收敛半径为 $R$。如果矩阵 $A$ 的所有特征值的模都小于 $R$ (即谱半径 $\rho(A) < R$),则矩阵幂级数 $f(A) = \sum a_n A^n$ 收敛。

    • 证明思路:
      将 $A$ 化为 Jordan 标准型 $J = P^{-1}AP$。则 $S_N(A) = P S_N(J) P^{-1}$,其中 $S_N(x) = \sum_{k=0}^N a_k x^k$。
      当 $N \to \infty$时,$S_N(\lambda_i) \to f(\lambda_i)$,$S_N^{(k)}(\lambda_i) \to f^{(k)}(\lambda_i)$。
      因此 $S_N(J_i) \to f(J_i)$ 对每个 Jordan 块成立。
      所以 $S_N(J) \to f(J)$,从而 $S_N(A) \to f(A)$。

2.3 常见矩阵函数 (Common Matrix Functions)

(定义基于其泰勒级数,收敛半径为 $\infty$)

  1. 指数函数 (Exponential Function):
    $e^A = \sum_{n=0}^{\infty} \frac{A^n}{n!} = E + A + \frac{A^2}{2!} + \dots$
  2. 正弦函数 (Sine Function):
    $\sin A = \sum_{n=1}^{\infty} (-1)^{n-1} \frac{A^{2n-1}}{(2n-1)!} = A - \frac{A^3}{3!} + \frac{A^5}{5!} - \dots$
  3. 余弦函数 (Cosine Function):
    $\cos A = \sum_{n=0}^{\infty} (-1)^n \frac{A^{2n}}{(2n)!} = E - \frac{A^2}{2!} + \frac{A^4}{4!} - \dots$
  4. 二项式级数 (Binomial Series):
    如果 $A$ 的所有特征值的模都小于 1 (即 $\rho(A) < 1$),则
    $(E+A)^\alpha = \sum_{n=0}^{\infty} \binom{\alpha}{n} A^n = E + \alpha A + \frac{\alpha(\alpha-1)}{2!}A^2 + \dots$
    特别地,$(E-A)^{-1} = \sum_{n=0}^{\infty} A^n = E + A + A^2 + \dots$ (Neumann 级数)
  5. 对数函数 (Logarithm Function):
    如果 $A$ 的所有特征值的模都小于 1 (即 $\rho(A) < 1$),则
    $\ln(E+A) = \sum_{n=1}^{\infty} (-1)^{n-1} \frac{A^n}{n} = A - \frac{A^2}{2} + \frac{A^3}{3} - \dots$

2.4 矩阵值函数的导数 (Derivative of a Matrix-valued Function)

  • 定义: 设 $A(t) = (a_{ij}(t))$ 是一个矩阵,其元素 $a_{ij}(t)$ 是变量 $t$ 的可微函数。则 $A(t)$ 的导数定义为 $\frac{d}{dt}A(t) = A’(t) = (\frac{d}{dt}a_{ij}(t))$。
  • 性质:
    • $(e^{At})’ = A e^{At}$
    • $(\sin(At))’ = A \cos(At)$
    • $(\cos(At))’ = -A \sin(At)$
    • 证明 $(e^{At})’$:
      $e^{At} = E + At + \frac{A^2t^2}{2!} + \dots + \frac{A^n t^n}{n!} + \dots$
      逐项求导 (在收敛域内可以这样做):
      $\frac{d}{dt}(e^{At}) = 0 + A + \frac{A^2 \cdot 2t}{2!} + \dots + \frac{A^n \cdot nt^{n-1}}{n!} + \dots$
      $= A + A^2t + \dots + \frac{A^n t^{n-1}}{(n-1)!} + \dots$
      $= A (E + At + \dots + \frac{A^{n-1}t^{n-1}}{(n-1)!} + \dots) = A e^{At}$

3. 计算矩阵函数的其他方法 (Other Methods for Computing Matrix Functions)

除了使用 Jordan 标准型,还有基于插值多项式的方法。

3.1 基于 Cayley-Hamilton 定理的插值 (Interpolation based on Cayley-Hamilton Theorem)

  • 核心思想: 任何矩阵 $A$ 都满足其自身的特征方程。更一般地,它满足其最小多项式 $m_A(x)$。
    即 $m_A(A) = O$。
  • 方法:

    1. 找到矩阵 $A$ 的最小多项式 $m_A(x)$。设 $\deg(m_A(x)) = d \le n$。
    2. 构造一个次数小于 $d$ 的多项式 $p(x) = c_0 + c_1 x + \dots + c_{d-1} x^{d-1}$。
    3. 使得 $p(x)$ 与函数 $f(x)$ 在 $A$ 的特征值处 “一致”。具体来说,如果 $\lambda_i$ 是 $m_A(x)$ 的一个 $k_i$ 重根 (也是 $A$ 的特征值),则需要满足:
      $p(\lambda_i) = f(\lambda_i)$
      $p’(\lambda_i) = f’(\lambda_i)$

      $p^{(k_i-1)}(\lambda_i) = f^{(k_i-1)}(\lambda_i)$
      对 $m_A(x)$ 的所有不同根 $\lambda_i$ 及其重数 $k_i$ 都成立。
    4. 解出系数 $c_0, \dots, c_{d-1}$。
    5. 则 $f(A) = p(A) = c_0 E + c_1 A + \dots + c_{d-1} A^{d-1}$。
    • 这个 $p(x)$ 称为 $f(x)$ 关于矩阵 $A$ (或其最小多项式) 的插值多项式 (Hermite 插值)。
  • 定理: 如果 $p(x)$ 是满足上述条件的插值多项式,则 $f(A)=p(A)$。
    • 证明思路:
      令 $g(x) = f(x) - p(x)$。则 $g^{(j)}(\lambda_i) = 0$ for $j=0, \dots, k_i-1$ 对 $m_A(x)$ 的每个根 $\lambda_i$ 及其重数 $k_i$ 成立。
      这意味着 $m_A(x)$ 整除 $g(x)$,即 $g(x) = m_A(x) h(x)$ 对某个多项式 $h(x)$ 成立。
      因此 $g(A) = m_A(A) h(A) = O \cdot h(A) = O$。
      所以 $f(A) - p(A) = O \Rightarrow f(A) = p(A)$。
  • 例子 1: $A = \begin{pmatrix} -1 & 4 \\ 3 & 2 \end{pmatrix}$,求 $e^A$。

    • 特征多项式: $|\lambda E - A| = \lambda^2 - \lambda - 10 = (\lambda-5)(\lambda+2)$。
    • 最小多项式 $m_A(x) = (x-5)(x+2)$ (因为根是单根)。
    • 设 $p(x) = ax+b$。$f(x)=e^x$。
    • $p(5) = f(5) \Rightarrow 5a+b = e^5$
    • $p(-2) = f(-2) \Rightarrow -2a+b = e^{-2}$
    • 解得 $a = \frac{1}{7}(e^5 - e^{-2})$, $b = \frac{1}{7}(2e^5 + 5e^{-2})$。
    • $e^A = p(A) = aA + bE = \frac{1}{7}(e^5 - e^{-2})A + \frac{1}{7}(2e^5 + 5e^{-2})E$。
  • 例子 2: $A = \begin{pmatrix} -2 & 2 & -2 \\ 4 & -1 & 2 \\ -1 & 1 & 0 \\ 0 & 0 & 1 \\ -2 & 1 & -1 & 4 \end{pmatrix}$ (这个矩阵似乎不完整或有误,假设是一个4x4矩阵)。
    特征多项式 $|\lambda E - A| = (\lambda-1)^3(\lambda-2)$。
    假设最小多项式 $m_A(x) = (\lambda-1)^2(\lambda-2)$ (这取决于Jordan块的结构)。
    求 $\cos(\pi A)$。设 $f(x) = \cos(\pi x)$。
    设 $p(x) = ax^2+bx+c$ (次数小于 $m_A(x)$ 的次数3)。
    条件:

    1. $p(2) = f(2) \Rightarrow 4a+2b+c = \cos(2\pi) = 1$
    2. $p(1) = f(1) \Rightarrow a+b+c = \cos(\pi) = -1$
    3. $p’(1) = f’(1)$: $p’(x)=2ax+b$, $f’(x)=-\pi \sin(\pi x)$。
      $2a+b = -\pi \sin(\pi) = 0 \Rightarrow b = -2a$。
      代入(2): $a-2a+c = -1 \Rightarrow -a+c=-1 \Rightarrow c=a-1$。
      代入(1): $4a+2(-2a)+(a-1) = 1 \Rightarrow 4a-4a+a-1=1 \Rightarrow a-1=1 \Rightarrow a=2$。
      $b = -2(2) = -4$。
      $c = 2-1 = 1$。
      $p(x) = 2x^2 - 4x + 1$。
      $\cos(\pi A) = p(A) = 2A^2 - 4A + E$。

3.2 Lagrange-Sylvester 插值公式 (Lagrange-Sylvester Interpolation Formula)

这是上述方法的一个更明确的公式化。

  • 设矩阵 $A$ 的最小多项式为 $m_A(x) = \prod_{i=1}^s (x-\lambda_i)^{\alpha_i}$,其中 $\lambda_i$ 是互不相同的特征值,$\sum \alpha_i = d = \deg(m_A(x))$。
  • $f(A)$ 可以表示为:
    $f(A) = p(A) = \sum_{i=1}^s \left[ \sum_{j=0}^{\alpha_i-1} \frac{1}{j!} \left( \frac{d^j}{dx^j} \frac{f(x)}{m_i(x)} \right)_{x=\lambda_i} (A-\lambda_i E)^j \right] m_i(A)$
    其中 $m_i(x) = \frac{m_A(x)}{(x-\lambda_i)^{\alpha_i}}$ (即除去 $(x-\lambda_i)^{\alpha_i}$ 因子后的部分)。
  • 特例 (最小多项式无重根):
    $m_A(x) = (x-\lambda_1)(x-\lambda_2)\dots(x-\lambda_d)$ (所有 $\alpha_i=1$, $d=s$)
    $f(A) = \sum_{i=1}^d f(\lambda_i) Z_i(A)$
    其中 $Z_i(x) = \frac{\prod_{j \ne i} (x-\lambda_j)}{\prod_{j \ne i} (\lambda_i-\lambda_j)}$ 是 Lagrange 插值基多项式。
    $Z_i(A)$ 是投影算子。
  • 例子 (最小多项式无重根): $A = \begin{pmatrix} 2 & -3 & 0 \\ 1 & -2 & 0 \\ 2 & 3 & \sqrt{3} \end{pmatrix}$,求 $\arctan A$。
    特征多项式: $|\lambda E - A| = ((\lambda-2)(\lambda+2) - (-3)(1))(\lambda-\sqrt{3}) = (\lambda^2-4+3)(\lambda-\sqrt{3}) = (\lambda^2-1)(\lambda-\sqrt{3}) = (\lambda-1)(\lambda+1)(\lambda-\sqrt{3})$。
    这是最小多项式 (因为根是单根)。 $\lambda_1=1, \lambda_2=-1, \lambda_3=\sqrt{3}$。
    $p_1(x) = \frac{(x+1)(x-\sqrt{3})}{(1+1)(1-\sqrt{3})} = \frac{(x+1)(x-\sqrt{3})}{2(1-\sqrt{3})}$
    $p_2(x) = \frac{(x-1)(x-\sqrt{3})}{(-1-1)(-1-\sqrt{3})} = \frac{(x-1)(x-\sqrt{3})}{2(1+\sqrt{3})}$
    $p_3(x) = \frac{(x-1)(x+1)}{(\sqrt{3}-1)(\sqrt{3}+1)} = \frac{x^2-1}{2}$
    $\arctan A = (\arctan 1) p_1(A) + (\arctan(-1)) p_2(A) + (\arctan \sqrt{3}) p_3(A)$
    $= \frac{\pi}{4} p_1(A) - \frac{\pi}{4} p_2(A) + \frac{\pi}{3} p_3(A)$
    代入 $p_i(A)$ 并化简得到 $\frac{\pi}{24}(5A^2 + 3\sqrt{3}A - 8E)$。

  • 特例 (最小多项式只有一个根):
    $m_A(x) = (x-\lambda_1)^\alpha$。
    则 $f(A) = p(A) = f(\lambda_1)E + f’(\lambda_1)(A-\lambda_1 E) + \dots + \frac{f^{(\alpha-1)}(\lambda_1)}{(\alpha-1)!}(A-\lambda_1 E)^{\alpha-1}$。

  • 例子: $A = \begin{pmatrix} 0 & -1 \\ 4 & 4 \end{pmatrix}$,求 $f(A) = \arcsin(A/4)$。
    特征多项式: $|\lambda E - A| = \lambda(\lambda-4) - (-1)(4) = \lambda^2-4\lambda+4 = (\lambda-2)^2$。
    最小多项式 $m_A(x) = (x-2)^2$ (因为 $A-2E = \begin{pmatrix} -2 & -1 \\ 4 & 2 \end{pmatrix} \ne O$ )。
    $\lambda_1=2, \alpha=2$。
    $f(x) = \arcsin(x/4)$。
    $f(2) = \arcsin(2/4) = \arcsin(1/2) = \pi/6$。
    $f’(x) = \frac{1}{4} \frac{1}{\sqrt{1-(x/4)^2}} = \frac{1}{\sqrt{16-x^2}}$。
    $f’(2) = \frac{1}{\sqrt{16-4}} = \frac{1}{\sqrt{12}} = \frac{1}{2\sqrt{3}}$。
    $f(A) = p(A) = f(2)E + f’(2)(A-2E) = \frac{\pi}{6}E + \frac{1}{2\sqrt{3}}(A-2E)$。

3.3 基于待定系数的插值 (PPT中的”待定系数法”)

这是方法3.1的另一种表述,通过解线性方程组确定插值多项式的系数。

  • 思想:

    1. 找到矩阵 $A$ 的最小多项式 $m_A(x) = (x-\lambda_1)^{\alpha_1} \dots (x-\lambda_s)^{\alpha_s}$,$\deg(m_A(x))=d$。
    2. 设插值多项式 $p(x) = c_0 + c_1 x + \dots + c_{d-1} x^{d-1}$。
    3. 建立方程组:
      $p^{(k)}(\lambda_i) = f^{(k)}(\lambda_i)$ for $k=0, \dots, \alpha_i-1$ and $i=1, \dots, s$。
      这会得到 $d$ 个关于 $c_0, \dots, c_{d-1}$ 的线性方程。
    4. 解出 $c_j$,则 $f(A) = p(A)$。
  • 例子: $A = \begin{pmatrix} 3 & 1 & -3 \\ -7 & -2 & 9 \\ -2 & -1 & 4 \end{pmatrix}$,求 $e^A$。
    特征多项式 $|\lambda E - A| = (\lambda-1)(\lambda-2)^2$。
    假设这就是最小多项式 $m_A(x) = (x-1)(x-2)^2$ (需要验证 $(A-E)(A-2E) \ne O$)。
    $d=3$。设 $p(x) = ax^2+bx+c$。 $f(x)=e^x$。
    条件:

    1. $p(1) = f(1) \Rightarrow a+b+c = e^1 = e$
    2. $p(2) = f(2) \Rightarrow 4a+2b+c = e^2$
    3. $p’(2) = f’(2)$: $p’(x)=2ax+b$, $f’(x)=e^x$。
      $4a+b = e^2$
      解这个关于 $a,b,c$ 的方程组。
      PPT中给出的答案 $e^A = e(A-2E)^2 + e^2(A-E)$ 是错误的。它似乎试图用一种特定形式的基多项式,但系数不对。
      正确的解法是通过解上述方程组得到 $a,b,c$,然后 $e^A = aA^2+bA+cE$。
      或者使用 PPT 最后一种方法:
      $f(A) = f(1)B_{10} + f(2)B_{20} + f’(2)B_{21}$,其中 $B_{ij}$ 是待定的常数矩阵。
      选择特定的函数 $f_1(x)=(x-2)^2$, $f_2(x)=(x-1)(x-2)$, $f_3(x)=(x-1)$ (使其在特征值处取特定值和导数值) 来确定 $B_{ij}$。
      例如,取 $f_1(x)=(x-2)^2$:
      $f_1(1)=1, f_1(2)=0, f_1’(2)=0$。
      则 $(A-2E)^2 = 1 \cdot B_{10} + 0 \cdot B_{20} + 0 \cdot B_{21} = B_{10}$。
      取 $f_2(x)=(x-1)(x-2)$:
      $f_2(1)=0, f_2(2)=0, f_2’(2)=(x-1)|_{x=2} = 1$。
      则 $(A-E)(A-2E) = 0 \cdot B_{10} + 0 \cdot B_{20} + 1 \cdot B_{21} = B_{21}$。
      取 $f_3(x)=x-1$:
      $f_3(1)=0, f_3(2)=1, f_3’(2)=1$。
      则 $A-E = 0 \cdot B_{10} + 1 \cdot B_{20} + 1 \cdot B_{21} = B_{20} + B_{21}$。
      所以 $B_{20} = (A-E) - (A-E)(A-2E)$。
      因此 $e^A = e^1 (A-2E)^2 + e^2 [(A-E)-(A-E)(A-2E)] + e^2 (A-E)(A-2E)$
      $e^A = e(A-2E)^2 + e^2(A-E)$。 (PPT这个形式是对的,之前的 $f(1)B_{10}$ 等项应该对应 $e$, $e^2$, $e^2$)
      PPT的结果 $e^A = e \begin{pmatrix} \dots \end{pmatrix}$ 给出具体数值。

4. 矩阵函数的性质 (Properties of Matrix Functions)

设 $f(A)$ 和 $g(A)$ 是矩阵 $A$ 的函数 (例如通过收敛幂级数定义,或通过插值多项式定义)。

  • 可交换性: $f(A)g(A) = g(A)f(A)$。
    • 证明思路: 如果 $f(A)=p(A)$ 和 $g(A)=q(A)$,其中 $p, q$ 是多项式,则 $p(A)q(A)=q(A)p(A)$ 因为矩阵多项式可交换。对于更一般的函数,可以通过幂级数逼近或Jordan型证明。
  • 复合函数: 如果 $h(x) = f(x)g(x)$,则 $h(A) = f(A)g(A)$。
    • 证明思路:
      设 $p(x), q(x), r(x)$ 分别是 $f(x), g(x), h(x)$ 关于 $A$ 的插值多项式。
      需要证明 $r(A) = p(A)q(A)$。
      关键在于证明 $r(x)$ 和 $p(x)q(x)$ 在 $A$ 的谱值 (特征值及其导数值) 上一致。
      $r^{(k)}(\lambda_i) = h^{(k)}(\lambda_i) = (fg)^{(k)}(\lambda_i) = \sum_{j=0}^k \binom{k}{j} f^{(j)}(\lambda_i) g^{(k-j)}(\lambda_i)$
      而 $(pq)^{(k)}(\lambda_i) = \sum_{j=0}^k \binom{k}{j} p^{(j)}(\lambda_i) q^{(k-j)}(\lambda_i)$。
      由于 $p^{(j)}(\lambda_i) = f^{(j)}(\lambda_i)$ 和 $q^{(j)}(\lambda_i) = g^{(j)}(\lambda_i)$ 在谱点上成立,所以 $r(x)$ 和 $p(x)q(x)$ 在谱点上一致。
      因此 $r(A) = (pq)(A) = p(A)q(A)$。
  • 逆函数: $(e^A)^{-1} = e^{-A}$。
    • 证明: $e^x e^{-x} = e^0 = 1$。所以 $e^A e^{-A} = E$。
  • 例子: $A = \begin{pmatrix} -1 & 0 \\ -1 & 1 \end{pmatrix}$,求 $(e^A)^{-1}$。
    $(e^A)^{-1} = e^{-A}$。计算 $e^{-A}$。
    $-A = \begin{pmatrix} 1 & 0 \\ 1 & -1 \end{pmatrix}$。
    特征值是 $1, -1$。
    $e^{-A} = c_1(-A) + c_0 E$。
    $c_1(1)+c_0 = e^1$
    $c_1(-1)+c_0 = e^{-1}$
    $2c_1 = e-e^{-1} \Rightarrow c_1 = \frac{e-e^{-1}}{2}$
    $2c_0 = e+e^{-1} \Rightarrow c_0 = \frac{e+e^{-1}}{2}$
    $e^{-A} = \frac{e-e^{-1}}{2} (-A) + \frac{e+e^{-1}}{2} E = \begin{pmatrix} e & 0 \\ \frac{e-e^{-1}}{2} & e^{-1} \end{pmatrix}$。 (PPT的计算有误,它是对$e^A$的元素求倒数,这是错的)
    正确的 $e^A$ 应该是 $\begin{pmatrix} e^{-1} & 0 \\ \frac{e^{-1}-e}{2} & e \end{pmatrix}$ (基于 $A$ 的特征值 $-1, 1$)
    然后 $e^{-A}$ 应该是 $\begin{pmatrix} e & 0 \\ \frac{e-e^{-1}}{2} & e^{-1} \end{pmatrix}$。

5. 线性常系数微分方程组 (Systems of Linear Differential Equations with Constant Coefficients)

5.1 齐次方程组 (Homogeneous Systems)

  • 方程: $\frac{d}{dt}X(t) = AX(t)$
  • 初始条件: $X(0) = X_0 = (c_1, c_2, \dots, c_s)^T$
  • : $X(t) = e^{At} X_0$

    • 验证 (唯一性):
      设 $Y(t)$ 是另一个解。令 $Z(t) = e^{-At}Y(t)$。
      $\frac{d}{dt}Z(t) = (\frac{d}{dt}e^{-At})Y(t) + e^{-At}(\frac{d}{dt}Y(t))$
      $= (-Ae^{-At})Y(t) + e^{-At}(AY(t))$
      $= -Ae^{-At}Y(t) + Ae^{-At}Y(t) = O$。
      所以 $Z(t)$ 是一个常数向量。 $Z(t) = Z(0) = e^{-A \cdot 0}Y(0) = X_0$。
      因此 $Y(t) = e^{At}Z(t) = e^{At}X_0$。
  • 例子: $\frac{d}{dt}X(t) = \begin{pmatrix} -7 & -7 & 5 \\ -8 & -8 & -5 \\ 0 & -5 & 0 \end{pmatrix} X(t)$,初始条件 $X(0) = (3, -2, 1)^T$。
    令 $A = \begin{pmatrix} -7 & -7 & 5 \\ -8 & -8 & -5 \\ 0 & -5 & 0 \end{pmatrix}$。
    特征多项式 $|\lambda E - A| = (\lambda-5)(\lambda+5)(\lambda+15)$。
    使用 Lagrange 插值计算 $e^{At}$ (因为根是单根):
    $e^{At} = \frac{(A+5E)(A+15E)}{(5+5)(5+15)} e^{5t} + \frac{(A-5E)(A+15E)}{(-5-5)(-5+15)} e^{-5t} + \frac{(A-5E)(A+5E)}{(-15-5)(-15+5)} e^{-15t}$
    $= \frac{e^{5t}}{200}(A^2+20A+75E) - \frac{e^{-5t}}{100}(A^2+10A-75E) + \frac{e^{-15t}}{200}(A^2-25E)$
    (PPT中的第二项 $A^2+20A-75E$ 应该是 $A^2+10A-75E$ 因为 $(-5+15)=10$)。
    代入 $A, A^2$ 计算出 $e^{At}$ 的具体矩阵形式。
    然后 $X(t) = e^{At} X_0$。

5.2 非齐次方程组 (Non-homogeneous Systems)

  • 方程: $\frac{d}{dt}X(t) = AX(t) + u(t)$
  • 初始条件: $X(t_0) = X_0$
  • 解 (常数变易法 / Variation of Parameters):
    $X(t) = e^{A(t-t_0)}X_0 + \int_{t_0}^{t} e^{A(t-s)}u(s)ds$

    • 推导:
      设解的形式为 $X(t) = e^{At}c(t)$。
      $\frac{d}{dt}X(t) = Ae^{At}c(t) + e^{At}c’(t)$。
      代入原方程: $Ae^{At}c(t) + e^{At}c’(t) = A e^{At}c(t) + u(t)$。
      $e^{At}c’(t) = u(t) \Rightarrow c’(t) = e^{-At}u(t)$。
      $c(t) = \int_{t_0}^{t} e^{-As}u(s)ds + C_0$ (其中 $C_0$ 是常数向量)。
      $X(t) = e^{At} \left( \int_{t_0}^{t} e^{-As}u(s)ds + C_0 \right)$
      $= \int_{t_0}^{t} e^{A(t-s)}u(s)ds + e^{At}C_0$。
      使用初始条件 $X(t_0)=X_0$:
      $X_0 = e^{At_0}C_0 \Rightarrow C_0 = e^{-At_0}X_0$。
      $X(t) = \int_{t_0}^{t} e^{A(t-s)}u(s)ds + e^{A(t-t_0)}X_0$。
  • 例子: $\frac{d}{dt}X(t) = \begin{pmatrix} 3 & -1 & 1 \\ 2 & 0 & -1 \\ 1 & -1 & 2 \end{pmatrix} X(t) + \begin{pmatrix} 0 \\ 0 \\ e^{2t} \end{pmatrix}$,初始条件 $X(0)=(1,1,1)^T$。
    $A = \begin{pmatrix} 3 & -1 & 1 \\ 2 & 0 & -1 \\ 1 & -1 & 2 \end{pmatrix}$, $u(s) = \begin{pmatrix} 0 \\ 0 \\ e^{2s} \end{pmatrix}$。
    特征多项式 $|\lambda E - A| = \lambda(\lambda-2)(\lambda-3)$。特征值 $0, 2, 3$。
    找到特征向量,构造 $P$ 使得 $P^{-1}AP = D = \text{diag}(0,2,3)$。
    $e^{At} = P e^{Dt} P^{-1} = P \text{diag}(1, e^{2t}, e^{3t}) P^{-1}$。
    计算 $e^{At}X_0$ 和 $\int_0^t e^{A(t-s)}u(s)ds$。

5.3 高阶线性常系数微分方程 (Higher-order Linear ODEs with Constant Coefficients)

  • 齐次方程: $y^{(n)} + a_1 y^{(n-1)} + \dots + a_n y = 0$
    初始条件 $y(0)=y_0, y’(0)=y_1, \dots, y^{(n-1)}(0)=y_{n-1}$。
  • 转换为一阶方程组:
    令 $x_1(t) = y(t), x_2(t) = y’(t), \dots, x_n(t) = y^{(n-1)}(t)$。
    $X(t) = (x_1, \dots, x_n)^T$。
    $\frac{d}{dt}X(t) = A X(t)$,其中 $A$ 是友矩阵 (Companion Matrix):
    $A = \begin{pmatrix}
    0 & 1 & 0 & \dots & 0 \\
    0 & 0 & 1 & \dots & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & 0 & \dots & 1 \\
    -a_n & -a_{n-1} & -a_{n-2} & \dots & -a_1
    \end{pmatrix}$
    初始条件 $X(0) = (y_0, y_1, \dots, y_{n-1})^T$。
  • : $X(t) = e^{At}X_0$。
    $y(t)$ 是 $X(t)$ 的第一个分量: $y(t) = (1, 0, \dots, 0) e^{At} X_0$。

  • 非齐次方程: $y^{(n)} + a_1 y^{(n-1)} + \dots + a_n y = u(t)$
    转换为 $\frac{d}{dt}X(t) = AX(t) + U(t)$,其中 $U(t) = (0, \dots, 0, u(t))^T$。

  • : $y(t) = (1, 0, \dots, 0) \left( e^{At}X_0 + \int_0^t e^{A(t-s)}U(s)ds \right)$。

  • 例子: $y’’’ - 3y’’ - 6y’ + 8y = e^{2t}$,初始条件 $(y(0), y’(0), y’’(0)) = (1,0,1)$。
    $A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ -8 & 6 & 3 \end{pmatrix}$。
    特征多项式 $|\lambda E - A| = \lambda^3 - 3\lambda^2 - 6\lambda + 8 = (\lambda-1)(\lambda+2)(\lambda-4)$。
    计算 $e^{At}$,然后代入公式。

6. 与矩阵可交换的矩阵 (Matrices Commuting with a Given Matrix)

这部分讨论中心化子 $C(A) = \{B \mid AB=BA\}$。

6.1 基本思想与 Jordan 标准型的作用

  • 设 $A = PJP^{-1}$,其中 $J = \text{diag}(J_1, \dots, J_s)$ 是 $A$ 的 Jordan 标准型。
    $B$ 与 $A$ 可交换 ($AB=BA$) 当且仅当 $PJP^{-1}B = B PJP^{-1}$。
    令 $B_1 = P^{-1}BP$,则 $JB_1 = B_1J$。
    即,与 $A$ 可交换的矩阵 $B$ 具有形式 $B = PB_1P^{-1}$,其中 $B_1$ 与 $J$ 可交换。
  • 将 $B_1$ 分块为 $B_1 = (B_{ij})$,与 $J$ 的分块对应。
    $JB_1 = B_1J \iff J_i B_{ij} = B_{ij} J_j$ for all $i,j=1, \dots, s$。

6.2 $J_i B_{ij} = B_{ij} J_j$ 的解

  • 情况 1: $\lambda_i \ne \lambda_j$ (对应 $J_i$ 和 $J_j$ 的特征值不同)
    $J_i = \lambda_i E_{k_i} + N_i$, $J_j = \lambda_j E_{k_j} + N_j$。
    $(\lambda_i E_{k_i} + N_i)B_{ij} = B_{ij}(\lambda_j E_{k_j} + N_j)$
    $N_i B_{ij} - B_{ij} N_j = (\lambda_j - \lambda_i) B_{ij}$。
    由于 $N_i$ 和 $N_j$ 是幂零的,算子 $L(X) = N_i X - X N_j$ 也是幂零的。
    而 $(\lambda_j - \lambda_i)$ 是非零常数。
    如果 $B_{ij} \ne O$,则 $L(B_{ij})$ 是幂零的,但 $(\lambda_j - \lambda_i)B_{ij}$ 不是幂零的 (除非 $B_{ij}=O$)。
    因此,当 $\lambda_i \ne \lambda_j$ 时,必有 $B_{ij} = O$ (零矩阵)。
    这意味着 $B_1$ 是一个分块对角矩阵 (如果 $A$ 的所有特征值都不同,则 $J$ 是对角阵,$B_1$ 也是对角阵)。

  • 情况 2: $\lambda_i = \lambda_j$ (特征值相同)
    $N_i B_{ij} = B_{ij} N_j$。
    这种矩阵方程的解 $B_{ij}$ 是一个特定形式的上三角 Toeplitz 型矩阵 (或更复杂的结构,取决于 $N_i, N_j$ 的大小)。
    如果 $i=j$ (对角块 $B_{ii}$),则 $N_i B_{ii} = B_{ii} N_i$。
    $B_{ii}$ 是一个与单个 Jordan 块 $N_i$ (或 $J_i$) 可交换的矩阵。这种矩阵具有上三角 Toeplitz 结构:
    $B_{ii} = \begin{pmatrix}
    b_0 & b_1 & \dots & b_{k_i-1} \\
    0 & b_0 & \dots & b_{k_i-2} \\
    \vdots & \ddots & \ddots & \vdots \\
    0 & \dots & 0 & b_0
    \end{pmatrix}$
    (即 $B_{ii}$ 是 $N_i$ 的多项式: $B_{ii} = p(N_i)$)。

6.3 $C(C(A))$: 二次中心化子

  • 定理 (二次中心化子定理 ): 对于任何 $n \times n$ 复矩阵 $A$,$C(C(A)) = \{p(A) \mid p \text{ is a polynomial}\}$。
    即,与所有和 $A$ 可交换的矩阵都可交换的矩阵,恰好是 $A$ 的多项式。
  • 证明思路 (非常复杂,依赖于上述 $B_{ij}$ 的结构分析):
    1. $C(A)$ 中的元素 $B=PB_1P^{-1}$,其中 $B_1$ 的块 $B_{ij}$ 满足 $J_iB_{ij}=B_{ij}J_j$。
    2. 考虑 $C \in C(C(A))$,则 $C$ 与 $C(A)$ 中的所有 $B$ 可交换。
      $C = PC_1P^{-1}$,则 $C_1$ 与 $C(A)$ 对应的所有 $B_1$ 可交换。
    3. 通过仔细分析 $B_{ij}$ 的结构 (特别是当 $\lambda_i=\lambda_j$ 时,这些块可以取得相当的自由度,例如可以构造出某些特定位置为1其他为0的 $B_{ij}$),可以证明 $C_1$ 必须具有如下形式:
      $C_1 = \text{diag}(g_1(J_1), g_2(J_2), \dots, g_s(J_s))$,其中 $g_k(x)$ 是多项式。
      并且,如果 $\lambda_i = \lambda_j$,则 $g_i(x)$ 和 $g_j(x)$ 的系数必须满足一定关系,使得它们在谱点上一致,最终可以统一为一个多项式 $g(x)$。
      即 $C_1 = g(J)$。
    4. 因此 $C = Pg(J)P^{-1} = g(PJP^{-1}) = g(A)$。
  • 推论: 如果一个矩阵 $B$ 与所有和 $A$ 可交换的矩阵都可交换,那么 $B$ 一定是 $A$ 的多项式。
  • 特例: 如果 $A$ 的多项式构成了 $C(A)$ (例如 $A$ 是非减损的,即最小多项式等于特征多项式),则 $C(C(A)) = C(A)$。
作者

Jiamin Liu

发布于

2025-06-25

更新于

2025-06-25

许可协议

评论