矩阵分析

GelerCAT Lv1

线性空间

中文/毛子/工科教材中常见的叫法。 或者叫向量空间。

定义

如果数集 任意两个数加减乘除仍属于 ,即 对四则运算是封闭的, 则 是一个数域

对于一个上有8条公理,则称 上的线性空间

  1. 加法交换
  2. 加法结合
  3. 定一个 ,
  4. 对于任意的元素, 存在 使得
  5. 乘法对加法的分配
  6. 加法对乘法的分配
  7. 数乘的结合率
  8. 具有单位元

线性无关

是域 上的线性空间,

向量组 线性无关 当且仅当

其中 的零向量。

意味着,这组向量中的任意一个向量,都无法用其他的向量通过系数加减得到。

基底

向量组 中的每个向量线性无关,并且 中的任一向均可以由 线性组合表出,那么这组向量就是一组基底。

通过线性组合的定义,存在任意的,有

这组系数,也就是这个向量,在这组基下面的坐标。

  • 推论1: 维空间 中任意n个线性无关的向量都是基底,任意k( <n ) 个线性无关的向量组可以通过扩充成为一组基
  • 推论2: 对n维空间V中任意给定的一组基底和任意向量x,x由这组基底唯一线性表出
  • 推论3: 一个可逆矩阵可以把一组基映射到另一组基:

维数

上的线性空间,则基底中线性无关的元素个数为的维数,记为

是有限维空间

以上定义和推论可以告诉我们这些直观的感受:

  • 在同一个数领上,只讨论有限维线性空间的线性结构时,区别本质上是维数
  • 任何指定基底的操作,都是为这个线性空间注入观测坐标系,让我们通过研究坐标,矩阵的方式,对空间性质进行观测研究.
  • 基底本身并不改变空间本身的线性结构,只影响我们对他的表达方式。

过渡矩阵

基底里面的推论3,表达了两个基底之间的映射。此时如果有一个向量分别在两个基底下的坐标


则有

过渡矩阵说明了当我们在研究任意的坐标转换时,只需要研究基底之间的线性变换即可。

子空间 维数定理

定义

是数域上的线性空间,非空集合, 如果中的向量关于上的线性运算也构成线性空间,则称的子空间

其中的两个平凡子空间

交空间

是向量空间 的子空间。它们的交空间定义为

也就是说,同时属于 的所有向量组成,并且 仍然是 的子空间。

x轴和y轴交于0,0就是子空间,则两个也是直和

和空间

是向量空间 的子空间。它们的和空间定义为

也就是说, 由从 里取一个向量、从 里取一个向量相加得到的所有向量组成,并且 也是 的子空间。

最直接的,就是xy平面

直和空间

是向量空间 的子空间。若满足

则称 直和,记作

或者说,一个子空间 = +, 上有唯一的分解,那么的直和空间

直和定理

代数补空间

如果 = + 那么互为代数补空间

维数定理

线性空间之间的不同

两个线性空间的不同,可以从以下方面直观感受:

维数不同

时, 不可能同构
这时,线性变换可以看作是“从n维到m维”的类型,投影,或者的嵌入。

维数相同,但集合层面存在差异,但是结构可以同构

考虑这种情况:

  • : 所有次数≤2的多项式

  • 一个的元素是多项式,一个的元素是三元组。几何不同,但是作为线性空间是同构的。

线性变换

定义

是数域 上的(两个不同的)线性空间,如果映射 满足

则称的一个线性映射

  • 这里面是一个函数/映射。具体的函数值是在里面的向量。
  • 其中代表的是线性组合的意思。
  • 类比于线性齐次多项式,线性变换的输入是一个线性空间里面的向量的线性组合,输出是另一个线性空间的向量。
  • 这个定义同时提示了,这个线性变换,可以分别对线性组合里面的每个量进行变换,之后在再进行线性组合
  • 即,先在里做线性组合后再变换,等价于,先分别变换得到里面的向量,再用同样的系数再线性组合

代表的线性空间相当于是值域, 相当于定义域

线性变换的另一个好处,就是能提供两个不同的线性空间之间的联系关系。只要这两个集合带上线性空间结构(在F上的运算封闭),就能通过线性变换矩阵进行转换。

比如多项式集合到坐标向量的转换:

线性变换能够把不同类型的对象联系起来,但前提是这些对象所在的集合本身是线性空间。

所有从的线性变换集合,记做

表示一个具体的线性变换。

一个矩阵在这个线性变换选定基底后得以给出。

核空间

固定一个线性变换
找出所有被送入中0的的集合,这些x组成的空间就叫核空间(0空间)

叫零度,也就是有多少个方向会被压成0

和空间一定也是的一个子空间。既然这个空间本身是由那些在线性变换过程中被压缩到0向量张成,那么这个空间的维度也就揭示了原空间被压扁的维度。

相空间

, 线性变换的秩也就是

相空间表达了那些输入被送到哪里。

亏加秩定理

在线性代数里面,矩阵的秩,代表了矩阵中那些有效的部分。这里我们扩展:

根据定义自然而然的引出亏加秩定理:
,

一个线性变换(具象化来讲,就是矩阵)由他的像空间,和被压缩到0的零空间组成。

线性变换的矩阵表示,及同构

线性变换的矩阵表示

我们其实隐约已经注意到了,线性变换,实际上就是矩阵的的抽象表示,而矩阵,则以具体的数字,描述了一个线性变换。
我们现在来讨论线性变换的矩阵表示。

在一个线性空间中,任意一个向量,都能够由一组的线性组合表出,而在同一个线性空间的线性变换,结果也是一个在这个线性空间中的向量(这里线性变换的系数使用来表示便于坐标和单纯系数的区分),

线性变换的性质

我们想关注于线性变换对整个线性空间结构的改变,而基底是能张出这个空间的,任何其他的向量都能同构这组基线性表出,所以我们只关注每个基底在这个线性变化过程中的改变。

是F上的线性空间, , 即V由这一堆张成,并且定义一个从的线性变换,




则称矩阵在基底下的矩阵表示。

只要基确定,那么这个线性变换的矩阵表示就是唯一的。因为在固定的基下,向量坐标的展开唯一。所以每个线性变换的系数也就唯一,而矩阵的每一列也都唯一,那么整个矩阵就唯一(人话,具体数学推倒可以自己试一下)

线性变换的同构, 矩阵的相似

变换同构

两个线性变换做的是同一件事,只是坐标系/基不同,所以写出来不同,这就是同构。
具体一点,考虑三个线性变换(注意这里是线性变换而非矩阵)

如果满足
也就是说,任意一个向量,在两不同的空间中,执行不同的线性变换T,S,最后通过转换到同一个坐标下,是相同的结果,那么T和S就是同构的。

同构意味着:

  • 特征值一样(拉伸倍率一样)
  • 特征值的维数一样
  • Jordan结构一样(细粒度结构,下面会讲)
矩阵相似

当把线性变换写成矩阵后,
线性变换同构也就是矩阵相似。
因为坐标转换使用的过渡矩阵:

这也就是矩阵相似。
也就是

  • 同一个T换基,两个矩阵必定相似
  • 两个矩阵相似,可以看成同一个线性变换在两种坐标下

线性变换的最简矩阵表示

一个线性变换,在不同基底下的矩阵表示都相似。
反之,所有相似矩阵描述的是同一个线性变换。
问题是能否在这么多的相似矩阵中选择一个线性变换最简单的矩阵表达。

我们要研究的,就是特征值,与最小多项式

特征值和特征向量

上上的线性空间,存在一个在上的线性变换,如果存在和非零向量的满足

  • 特征值
  • 特征向量

注意这里面的定义,并不是一个矩阵,而是一个线性变换。

的一组基
用这组基去观测这个线性变换:

则这个向量在这组基上的表达:

带回则有:

线性变换的特征值和特征向量是线性变换本身固有的性质,与基底无关。线性变换作用后,

特征向量对应方向在的作用下保持不变,即。对应的特征值给出沿该方向的缩放倍数。

求解特征值,可以通过计算

对应的特征向量是解

的非0解。

特征值和特征向量的一些结论

  • 不同特征值的特征向量不可能 是同一个方向,但他们未必正交,只有在正规矩阵

几何重数

特征子空间:

  • A对应于特征值的特征子空间: 就是这个特征值对应的特征向量张成的空间
  • T对应于特征值的特征子空间: 就是这个特征值对应的特征向量张成的空间

求某个特征值的特征子空间及它的一组基向量组成的矩阵,做法就是求

  1. 构建方程
  2. 解齐次线性方程
  3. 读出一组基向量:把自由变量分别取为单位参数,得到一组线性无关解向量
  4. 把基向量组合起来

特征子空间维度就是几何重数

ker是取一个线性变换的核(0)空间。

即,一个特征值所代表的特征向量张成的子空间的维数

计算时,对于某个特征值

  1. 解齐次方程x = 0,的到一个解集(一个向量子空间)
  2. 这个解集就是特征空间
  3. 几何重数

代数重数

作为特征多项式的重根数。

假如有一个特征多项式:

的代数重数为2, 的代数重数是1
记为:

所有特征值的代数重数之和等于矩阵的维数n

几何重数和代数重数的关系

对于任意的方阵 每个特征值 都满足:

上三角矩阵

主对角线下面的元素全是0。
$$

A=
$$

  • 行列式等于主对角线元素的乘积
  • 上三角矩阵的特征值就是主对角线上的元素
  • 解线性方程时 可以用回代的方式。从最后一行开始往上依次回带。

从几何上看,上三角矩阵描述的变换是按坐标轴方向做逐步的拉伸和剪切

分块上三角矩阵

上三角矩阵的对角线元素都是一阶的,并且都是特征值。

分块上三角矩阵的对角元素允许二阶的存在

其中左上角的二阶矩阵

在实数域内做线性代数运算,但是有些方向上的行为天然会产生复特征值。分块上三角矩阵就是为了用实数表达出这些复特征的信息。

例如,一个旋转矩阵 他的特征值很容易求得:

特征值就是

如果我不希望我的矩阵中变成上三角矩阵的时候,元素出现。那么我就可以用分块三角阵代替他。这里面这个特殊的旋转矩阵本身就是符合二阶子块构造形式的。可以直接拿来使用。

二阶子块的特征方程永远是

计算的性质:

  • 上三角矩阵与上三角矩阵的乘积是一个上三角矩阵

Shur引理

任意的都相似于上三角矩阵的主对角元素是A的全部特征值。注意,这个是复数域。

该结论可以同构数学归纳法证明。

任意的都存在分块上三角矩阵的主对角线上的子块是一阶子块或二阶子块,一阶子块是A的所有实特征值,每个二阶子块可以求出A的一对共轭复特征值。全部二阶子块的特征值是A的所有复特征值。复特征值一定是共轭出现的

特征多项式 (Hamilton-Cayley定理)

为了表达”矩阵在哪些下会变得不可逆”, 那么最直接的方法就是让他的行列式等于0,矩阵变得不可逆。这件事可以用一个多项式完整的表达出来。

对于, 其特征多项式即为

这是一个关于 的n次多项式

矩阵的特征多项式有一些性质:

  • 首项系数为1,首项次数为n。

求特征值的时候,就让

如果把这个特征多项式作用到矩阵上,那么

是零矩阵。

上面这个系数来自特征多项式,结果等于0的式子是一种特殊的零化多项式零化多项式本身不要求系数完全来自于特征多项式,只要关于A,结果是送到0,那么这个式子就是零化多项式。可以证明零化多项式是无穷多的,因为只要存在一个零化多项式,乘上任意的一个系数或者多项式,结果肯定还是0.

特征多项式带入A后的多项式,只是其中一个零化多项式,而HC定理的内容就是,特征多项式一定是零化多项式。并且这个多项式直接和绑定,携带特征值,代数重数的信息

这个性质在求一个矩阵的高次幂的时候十分有用:

则有递推公式:

对于一个 2x2 的矩阵,

计算他的特征多项式:

注意到:

直接写出特征多项式:

根据CH定理,直接把换成矩阵,则有

如果我要算,把等式两边同时乘上:

这个就是由CH导出的二阶矩阵求幂公式。

再从矩阵推广到线性变换上,设的特征多项式,则有

矩阵A属于不同特征值的特征向量线性无关

这个好理解,每个特征值都代表了线性空间里面一个方向被矩阵改变的长度。不同的长度变化一定对应的是不同的特征向量(方向),不同的方向在线性空间里面肯定是线性无关的。

矩阵和线性变化的零化多项式和最小多项式

由HC定理可以知道,一个矩阵或者线性变换,总是存在零化多项式的。而特征多项式就是其中之一。我们关心的是次数最低的零化多项式的性质。

最小多项式是指,零化多项式中次数最低,且首项系数为1的多项式。记为

唯一存在,且可整除A的任意零化多项式。即任意的零化多项式,都可以表达为

特征多项式不一定就是最小多项式,他们的关系是

很显然特征多项式和最小多项式具有相同的根(不记重根),因为最小多项式可以通过与q组合,整除任意零化多项式,而特征多项式也是零化多项式。

至此,我们可以分析线性变换的最简矩阵。

矩阵对角化

对角阵

对角阵(Diagonal Matrix)性质整理

对角阵是个好东西

设对角阵


1) 加法、数乘、乘法
  • 加法/数乘仍为对角阵:

  • 乘法逐元素相乘,且对角阵之间可交换:


2) 幂、多项式与矩阵函数(逐对角元素)
  • 幂:

  • 多项式:若 为多项式,则

  • 常见矩阵函数(若定义良好):


3) 行列式、迹、秩
  • 行列式:

  • 迹:

  • 秩:
    You can't use 'macro parameter character #' in math mode \mathrm{rank}(D)=#{i:\ d_i\neq 0}.


4) 可逆与逆矩阵
  • 可逆条件:

  • 逆矩阵:


5) 特征值、特征向量、谱半径
  • 特征值就是对角元(按重数):

  • 标准基向量 是特征向量:

  • 谱半径:


6) 正定/半正定判别(实对角)


7) 常用范数
  • 谱范数(诱导 -范数):

  • Frobenius 范数:
    $$
    |D|F=\sqrt{\sum{i=1}^n |d_i|^2}.
    $$

  • 条件数(-范数,且可逆):


8 与对角化的关系(补充)

若矩阵 可对角化:,则幂/矩阵函数可先在 上逐元素计算,再共轭回去。

线性变换的对角阵分析

线性变换的最简矩阵是对角阵,那么为什么?这里讨论为什么线性变换的最简矩阵是对角阵,他在哪一组基底下的矩阵是对角阵。

对于给定的线性变换,设A是它在某组基底下的矩阵,那么所有的矩阵都与A相似,且所有与A相似的矩阵都是T的矩阵表示。因此,如果要分析T的最简矩阵,之需要分析所有与A相似的矩阵中的最简单的矩阵,以及这个观测用的基底即可。

如果相似于一个对角阵,则是可对角化矩阵,或单纯型矩阵。如果线性变换的矩阵相似于一个对角阵,或在某组基底下的矩阵是对角阵,那么称可对角化

问题是,如何判断一个给定的矩阵是否可对角化?

矩阵 可对角化的充分必要条件是所有特征值的几何重数代数重数相等

代数重数描述了一个特征值理论上应该出现几次,几何重数描述了这个特征值实际上给了几个独立方向

对角化就是需要把空间分解到这些方向的直和,并且方向数量等于n。

所以当且仅当每个特征值都“不欠方向”,就能够对角化。

推论:如果n方阵有n个互异的特征值,则A可对角化。

进一步推广到,则有:可对角化的充分必要条件是的最小多项式可以分解成不同的一次因子的积,也就是无重根

代数重数直接通过特征多项式得到。

几何重数通过行外公式 的解空间维数得到;也可先算行内公式
,再用亏格定理行内公式

如果你已经阅读了Jordan标准型相关的内容,这里可以一起总结一些判断一个矩阵是否可以对角化的实操方法:

  • 直接计算代数重数和几何重数,判断相等。对于每个特征值
    • 从特征多项式读
    • 计算
    • 如果所有的 那么就可以对角化
  • 只用最小多项式判断。
    • 矩阵在域上可对角化 最小多项式分解成互异的一次因子,不存在平方项 对于每个特征值,一旦出现就不可以对角化
  • 如果通过某种🪄神秘力量🪄已经得到了这个矩阵的jordan标准型,那么就看块:
    • 只要出现任何一个的Jordan块,就不可对角化
    • 如果都是的块,就可以对角化

对角化可逆矩阵P的求法

在验证一个矩阵可以对角化后,仍需写出对角阵,以及完成这个变换的可逆矩阵P。具体方法可以有以下步骤:

  • 求出特征值,把特征值排列在矩阵的对角线上形成
  • 对于每个特征值,求的解集,挑一个最简单的向量v
  • 按照特征值排列的顺序排列这些解的向量,拼成最后的P。

内积空间

线性变换描述的是向量之间的线性对应关系,但是无法进一步定量刻画向量本身和向量之间的度量关系。

内积可以从数量上研究向量之间的关系和向量本身的度量,可以把中向量的长度,夹角,垂直,距离等概念,勾股定理,推广到抽象的线性空间中。

内积空间的基本概念和性质

设V是F上的线性空间,如果定义在上取值在上的二元函数(x, y) 满足一下条件:

  1. 共轭对称:,
  2. 关于第一个变量的线性可加性:
  3. 关于第二个变量的共轭线性:
  4. 具有非负性: 当且仅当x=0的时候,

称二元函数是V 上的内积,对给定的的值是x 和 y的内积。定义了内积的线性空间V叫内积空间。

实数域上的有限维内积空间称为欧式空间。
复数域上的有限维内积空间称为酉空间

酉空间

酉空间就是带有复内积的复线性空间
首先这个空间是复空间,其次定义了内积的线性空间就是酉空间

来自unitary,意为统一,保持。
在复数域上的有限内积空间(复内积空间)定义范数

如果一个线性变换满足

即,这个线性变换保持长度,正交,距离不变,比如刚体旋转,这类变换在复数情况下就叫 unitary

在实数里面,这个变换叫正交变换

空间并不是说这个空间里面所有的变换都酉,而是说这个空间的几何结构由内积决定,而保持这个几何结构的变换恰好叫酉变换。取这个名字类似欧式空间强调“正交”。

这里只是在不熟悉复数和酉空间概念的情况下做出初步说明,后续会详细讨论酉变换,正交变换的性质。

范数,模

上的内积,则称非负实数是由内积诱导的范数,记为。对于向量x,范数也称为x的长度,模,同时, 是两个向量之间的距离。

注意这里面的内积,模,都是最基础的定义。只要满足定义就都是内积,可以定义很多种内积。比如

  • 此时这个为酉空间,称这个内积是标准内积。如果对于实向量,那么就是
  • 负矩阵空间 是酉空间。这里面的指的是共轭转置,先转置再对每个元素取共轭。

上面的例子说明,对于任意给定的线性空间,内积存在且不唯一

下面给出内积和范数的性质。之后假设讨论的数域 即我们直接在酉空间上进行讨论。

由内积的定义,立刻可以得到以下性质:两个向量

如果 是标准正交基,那么

这个结论告诉我们,如果两个向量在各自的基下有坐标,我们可以把内积展开成坐标和基向量的组合。通过预先计算一次基向量之间的内积表,我们能用坐标/系数把内积直接算出来。

范数的性质的定理

是内积空间,则有

  1. 三角不等式
  2. 当且仅当x y线性相关时等号成立
  3. 平行四边形的公式

证明:略

进一步将中正交的概念引入内积空间中

是n维的内积空间,如果 则x 与y 正交,也就是垂直。记为

以此定义正交基底:
的正交向量组,满足

勾股定理也可以直接推广到高纬空间中
中的正交向量组,则有

内积的计算

对于内积空间上任意给定的基底, 令

两个向量x y,在这组基底下的坐标表示

由之前提到的线性组合的内积计算性质,有:

这里面的被称为度量矩阵(Gram矩阵)。

时标准正交基时,显然

此时

也就是线性代数里面的定义。

正交变换和酉变换

酉变换:unitary transformation,

如果V是欧式(酉)空间, 如果 保持中的内积不变,即

则T是V上的正交变换(酉变换)

以下命题在V是酉空间/欧式空间 时为等价命题:

  1. T是酉变换/正交变换
  2. 对任意的x
  3. 如果是V的一组标准正交基,则也是标准正交基。
  4. T在标准正交基下的矩阵Q是酉矩阵,即 (是正交矩阵,即)从这个命题还可以推导出正交矩阵的其他性质,比如具体长什么样子。
    1. 每一列/行 都是单位向量,且互相垂直

与之前熟悉的从出发的正交矩阵定义不同,这里从变换的本质出发,这个反倒只是一个性质。

从几何的角度来看,正交矩阵是旋转,反射。本身不改变长度和夹角,只改变方向/坐标系。

正交矩阵

直接从矩阵的角度看看正交变换长什么样子。

  • 从定义出发,一定有正交矩阵 = I
  • 统一的列的平方和为1,就是单位向量,且每个元素都应满足
  • , 是纯旋转保持方向。翻转方向
  • 所有特征值都满足

矩阵分解

通过把一个复杂的矩阵分解为几个简单矩阵的乘积称为矩阵分解。可以通过分解式中简单矩阵的某些特征研究复杂矩阵的特征。因此矩阵分解在矩阵理论研究中有重要的应用。

这里面介绍几种重要的矩阵分解

  1. QR分解和满秩分解
  2. 正规矩阵的酉相似对角分解
  3. 奇异值分解和极值分解
  4. 单纯矩阵的谱分解

QR分解

这里讨论满秩方阵的QR分解,列满秩矩阵的QR分解及任意矩阵的QR分解,作为推广,对复数矩阵同样有相应的UR分解。作为推论,可以得到任意矩阵的满秩分解

满秩矩阵的QR分解和UR分解

设满秩矩阵存在唯一的正交矩阵上三角矩阵使得

由于A满秩,因此n个列向量线性无关,从而可以作为的基底。可以使用正交化公式将其标准正交化为 进行推导。证明暂略。

这个QR分解具有唯一性。假设存在两个分解那么

左边两个正交矩阵相乘,肯定是正交矩阵;两个三角矩阵的乘积也一定上上三角矩阵;也就是说这个矩阵一定是单位矩阵,所以 从而得证唯一性。

QR分解可以有一些推论:

推论1. 设满秩矩阵, 则存在唯一的酉矩阵及正线上三角阵使得

证明同QR分解,只是矩阵的元是复数

推论2. 设列满秩矩阵,则存在m阶正交矩阵 或酉矩阵使得

由于A是列满秩的,那么一定有。先把A按照列向量扩充基,构成方阵B,对B就可以做QR分解

由于矩阵的分块乘法,上式两端的矩阵前n列块相等,即
j也就是

对于不可逆的矩阵,QR分解不唯一。因为扩充用的基不唯一。

推论3. 设$A\in C^{m \times n}rU \in C^{m \times m}, V \in C^{n \times n}R \in C^{r \times r}r使$
A = U \begin{bmatrix}
R & O
{r \times (n-r)} \
O
{(m-r)\times r} & O_{(m-r) \times (n-r)} \end{bmatrix} V^H
$$


是向量组的极大线性无关组。
并记由于A的各列均可以从线性表出,设标出系数为,则有

因为 包含,所以矩阵

分别对应用推论2:

这里面很显然 是酉矩阵。是正线上三角矩阵

带回:

由于满秩,对其应用推论2则有:

再次带回:

选择一个合适的的正交基(由U给出)和一个合适的的正交基(由V给出)在这两个基下,这个线性变换的矩阵表示A就变成了一个非常简单的左上角非零块,

由推论3的证明过程立即有以下满秩分解定理:

推论4 则存在, 使得

正规矩阵的酉相似对角分解及Schur分解

正规矩阵

如果矩阵 满足 则称是正规矩阵


首先给出Schur引理的进一步推导,酉相似三角分解。

即,任意方阵都相似于上三角阵,且主对角线元素是A的全部特征值。

下面进行证明。

Schur引理可知,任意矩阵都相似于上三角矩阵,既存在可逆矩阵和上三角矩阵使得

UR分解

同理可证在实数域,, 且特征子均为实数,则存在正交矩阵使得

酉相似分解:矩阵是正规矩阵,那么就存在酉矩阵使得:

下面给出证明。设一个正规矩阵 由schur引理,存在酉矩阵U和上三角矩阵K使得:


K是上三角矩阵,即, 根据矩阵乘法的定义,只有对角线上的元素不为0,因此K是对角阵。

就有:

推论1. 当且仅当有n个特征向量构成的一组标准 正交基,A是正规矩阵。且A的不同特征值的特征向量正交

对应一下特征值特征向量的定义:

其中里面的 是特征值,U的第i个列向量即对应位置的特征向量。就是在把这个式子写在了一起。

推论2.

  1. A为对称矩阵的充分必要条件是A的特征值均为实数。且存在正交矩阵(酉矩阵U)使得

  2. A为正交矩阵(酉矩阵)的充分必要条件是A的每个特征值的绝对值为1,且存在酉矩阵U使得

酉相似分解的本质是用一个酉矩阵U(实数下就是正交矩阵)做换基,因为前后乘上的U矩阵不改变几何结构。把矩阵A处理成更好处理的样子:A成为了对角阵,能瞬间化简很多的运算。

奇异值分解和极值分解

Hermite 矩阵/ 对称矩阵

Hermite矩阵(厄米矩阵/Hermitian matrix)

如果矩阵元素都是实数,那么就是对称矩阵

Hermite 矩阵有性质:

  • 对于任意的x,二次型 一定是实数
  • 不一定是正规矩阵
  • 特征值一定是实数

实对称矩阵的性质:

  • 实对称矩阵一定是正规矩阵

二次型

二次型本质上是一种把向量x映射成一个标量的函数。对于输入x是二次(平方)的。二次型是个


只要方程里关于变量的二次型形如
就总可以写成
注意这里面的A不一定是对称矩阵。



可以证明,那么
如果A不是对称的矩阵,那么可以等价的研究对称的二次型

正定, 半正定

正定

半正定

本质上就是这个矩阵的二次型(是个值)的符号。

对于任意实方阵A,就可以都能加的看的符号,来判断是否正定

正定也可以通过将矩阵转换为对角阵,来用对角阵的性质直接得出


回到奇异值分解

引理:设

  1. 都是半正定Hermite矩阵,且具有相同的非零特征值

这两个结论不证

奇异值分解

奇异值:设 的n个特征值为则称 是A的奇异值。其中是A的正奇异值。

同样还是对这个则存在酉矩阵

其中

分解步骤

  1. 计算的所有非0特征值,排序:
  2. 计算的所有特征值对应的标准正交特征向量:并且令S_r = diag(\sigma_1,\sigma_2,…,\sigma_r)$
  3. 计算
  4. 计算的一组标准正交基

最终,有

极值分解

则对A有:

其中G是半正定Hermite矩阵,U是酉矩阵

特别的,当A可逆时,G为正定Hermite矩阵,且分解唯一。

单纯矩阵的谱分解

谱分解是为了专门解决线性变换在重复作用、能量/二次型、及系统动态这些问题而设计的。他将复杂矩阵,变换成在某个坐标系下只按轴缩放。

单纯矩阵`

就是可对角化矩阵,对角化矩阵只对这个坐标进行各方向的独立缩放,所以叫单纯矩阵

Jordan 标准型

如果一个矩阵有足够多的特征向量,那么这个矩阵就能够通过乘上一个可逆矩阵实现对角化:
但是很多矩阵不够多特征向量,没法完全对角化。Jordan标准形解决了这个问题。

既然不能对角化,也要尽量的把矩阵“尽可能接近对角化”,这个操作在复数域上上一定能过做到的。

对于,任意的矩阵A都存在可逆矩阵P:使得

其中是块对角矩阵,每个块叫Jordan块

来看看Jordan长什么样子:



有一些规律:

  • 主对角线全是这个块对应的
  • 紧挨着主对角线的右边那条超对角线的值都是1
  • 其他的地方都是0
  • 最小多项式里面的指数给定的是该的最大jordan块大小
  • 每个jordan小块对应着一个线性无关的一维特征子空间

Jordan标准型J就是把这些块沿对角线拼起来:
$$
J=\operatorname{diag}\big(J_2(1),,J_1(0),,J_3(2)\big)


$$
只有超对角线是1,其余都是0.且
jordan标准型有一些很好的性质:

  • 在C上的任意方阵A都相似于某个Jordan矩阵
  • Jordan标准型在“块的排列顺序”之外是一定的,也就是说,每个特征值对应多少个块,每个块多大,都是确定的
  • Jordan标准型可以直接读出几何重数和代数重数,从而判断这个J原先的矩阵是否可以对角化。
    • 代数重数:这个特征值所对应的所有jordan块大小之和
    • 几何重数:这个特征值所对应的jordan块的个数
    • 具体参考矩阵对角化的说明

等幂矩阵

如果矩阵 满足,那么A是幂等矩阵,或者说是投影矩阵

如果, 是幂等矩阵,那么有:

  1. A是单纯矩阵(就是可对角化矩阵,不单独写一个条目了)并且Jordan标准型为
  2. A的特征值只能是0,或者,1
  3. rank(A) = Tr(A)
  4. 就是说,满足的所有向量,恰好就是的像空间(值域),这里面指的是特征值1的特征子空间

谱分解

有k个互异的特征值为单纯形矩阵的充分必要条件是存在唯一的谱分解,即存在一组幂等矩阵使得

其中

额外的性质:

证明暂略

证明的过程给出了谱分解的方法:

  1. 求出A的所有互异特征值
  2. 求出特征子空间的基向量矩阵

  3. 这里
  4. 则有

这个求解过程的第二步需要求解K个方程组,第三步需要计算X的逆矩阵Y,计算量很大,下面的推论给出另一种计算的方法,用计算矩阵的多项式代替上述方法二三步中的解方程组和矩阵求逆运算。

推论1. 设A的谱分解是

其中 即每一项在除了自己的特征值那一项之外的,其中后面带入A的,是将

另一个推论给出了矩阵谱分解的第一个直观的好处,如果要把一个矩阵当作多项式的输入:

推论2.是多项式, 则有

特别的,

记住是幂等矩阵,并且互相正交,上面这两个推论很好得证。

上面的推论2 给出了多项式矩阵作谱分解的方法,后面还有更重要的应用

无论是用定理还是推论中的方法,对一般的单纯矩阵作谱分解计算量都很大,但是对于一些特殊的矩阵,谱分解的计算量会大大降低。例如正规矩阵

个不同的特征值则A为正规矩阵的充分必要条件上存在个幂等的Hermite矩阵
使得

同样有
额外的,增加了约束

有了这个额外的约束,对于正规矩阵的谱分解可以简化为:

  1. 求出A的所有互异特征值
  2. 求出特征值空间的标准正交基向量矩阵
  3. 则有

省去了求逆运算

矩阵分析

向量范数与矩阵范数

之前在线性空间中提到过的范数,叫做内积诱导范数,是范数的一种特殊情况。这里给出对于范数的公理化定义:

向量范数

是数域(实数or复数)上的线性空间,如果定义在空间V上的实值函数满足以下条件:

  1. 非负性: 并且
  2. 齐次性:
  3. 三角不等式:

那么 就是向量空间V上的向量范数

请注意,范数实际上是一种函数。后续我们会讨论他的极限,收敛性。

直接有结论(证明略):中的向量范数有无穷多种

常见的向量范数:

  • ${\lVert x \rVert}1 = \sum{i = 1}^n \lvert x_i \rvert$ 1-范数
  • ${\lVert x \rVert}2 = (\sum{i = 1}^n \lvert x_i^2 \rvert)^{\frac{1}{2}}$ 2-范数,欧几里得范数
  • ${\lVert x \rVert}\infty = \max{1≤i≤n}{\lvert x_i \rvert}\infty$-范数

定理1有限维空间V上的任意两种向量范数都是等价的。即存在正的常数 使得

就是说,用两种范数去量同一个向量的“大小”,结果最多只会差一个固定的倍数(这个倍数跟向量
x无关,只跟这两种范数、空间维数有关)。

有了不同范数的大小关系,紧接着就可以推出:

  1. 如果V中的向量序列 按某种范数收敛于,那么按任意一种向量范数都收敛于
  2. 按向量收敛于当且仅当按坐标收敛于

以上是对任意抽象线性空间范数的定义。但是在下面我们主要用的是两种特殊的情况:1.上的范数,2.上的特殊向量范数,即矩阵的相容型范数

矩阵范数

如果定义在矩阵空间上的实值函数满足一下条件:

  1. 非负性: 并且
  2. 齐次性:
  3. 三角不等式:

就称 是矩阵空间 上的范数矩阵

如果额外满足

  1. 相容性:

则称这个函数 是矩阵空间 上的相容性矩阵范数

相容性矩阵范数有无穷多,这里我们主要用到的都是相容性矩阵范数,简称矩阵范数。常见的相容性矩阵范数有:

  • ${\lVert A \rVert}1 = max{1≤j≤n}\sum_{i = i}^n\lvert a_{ij}\rvert$ 1-范数,列范数

  • ${\lVert A \rVert}2 = \sqrt{\lambda{max}(A^HA)}$ 2-范数,谱范数

  • ${\lVert A \rVert}\infty = max{1≤j≤n}\sum_{j = i}^n\lvert a_{ij}\rvert\infty$Frobenius范数,Euclid范数

  • ${\lVert A \rVert}F = \sqrt{\sum{i,j} {\lvert a_{ij} \rvert}^2}$ Frobenius 范数

验证一个范数是否满足矩阵范数的定义,之需要分别验证非负性,齐次性,三角不等式,以及相容性即可。

验证中常用Holder 不等式

相容关系

对于给定的矩阵范数和向量范数 如果满足不等式


则这两种给定的范数是相容的。

相容性让矩阵范数真正成为算子 的“最大放大倍数”的度量,从而把输入的有界性/误差界通过稳定地传递到输出。一旦相容,两个范数的有界性就能够传递;同时也指出相容的矩阵范数一定存在

定理2. 对任意给定的上的向量范数, 一定存在上的矩阵范数与之相容。对于任意给定的矩阵范数,也一定存在向量范数与之相容。

矩阵范数的性质

性质1. 单位矩阵的任何算子范数都等于1。如果A是可逆矩阵,则对任意的算子范数有

这个性质是用矩阵的范数估计逆矩阵范数的下界。

性质2. 的某中范数非奇异。并且有

奇异就是指这个矩阵不可逆,非奇异就是这个矩阵可逆

这个性质用于估计逆矩阵范数的上界,但经常以另一个形式出现:
, 则有, 则有 ,则有另一种描述:

的某种范数非奇异。并且有

这提示我们,可以使用 判断B可逆。用 的值估计矩阵 的上界

判断可逆,可以首先考虑1范数和范数。

性质3. 则对任意矩阵范数有

其中谱半径 ,特征值模的最大值:

性质4. 则对任意正数, 存在矩阵范数 , 使得

性质3提示我们任意的范数都不小于最大的特征值的模;性质4告诉我们,在所有可能的矩阵范数里面挑选,的值最低能压到的极限,就是谱半径。

矩阵特征值的估计

矩阵特征值的估计不仅是矩阵分析的基础,本身也是矩阵理论的重要内容。本节给出特征值的几个估计式

给出定理 的特征值为 ,则有


即,根据矩阵范数的性质,矩阵的任意一种范数都不小于谱半径,所以这1-范数,2-范数,范数也不小于谱半径

盖尔圆盘:设,令

是A的n个盖尔圆盘

几何上,在对矩阵的第i行,圆心是这个复数点,落在复平面上,半径为的一个圆盘。

这时给出这个矩阵的特征值(不考虑重复,几何重数之和一定是n)以及A的n个盖尔圆盘

  1. 即A的特征值会落在盖尔圆盘覆盖的范围捏(内,感觉可爱遂保留)。
  2. 如果A的盖尔圆盘中有k个的并集形成一个连通区域且与其余的个盖尔圆盘不相交,则在这个连通区域内恰好有k个特征值。特别的,孤立的盖尔圆盘内只有一个特征值。

证明不考暂略

推论1. 严格对角占优阵 非奇异

严格对角占优阵

推论2. 如果的n个盖尔圆盘互相独立,那么A可对角化
推论3. 如果有k个盖尔圆盘互相独立,那么A至少有k个互异的实特征值

有几个直观的结论:

  • 盖尔圆盘不是相似不变的量。同一个线性变换,用不同的基观测出不同的矩阵,画出来的盖尔圆盘会变。因此可以使用相似变换保证特征值不变,但圆盘的半径会变,可以把原本重叠的圆盘拉开。通常情况下直接用最方便:

再给出最后一个定理:设 是Hermite矩阵,特征值为
则有

这个定理就是在说明,两个Hermite矩阵相加时,A+B的每一个第大特征值,会落在一个夹逼区间里

矩阵级数

矩阵序列和矩阵级数的收敛,绝对收敛的定义和高数中数列,级数几乎完全相同

定义 1. 设 ${A_k}{k=0}^{\infty}\subseteq \mathbb{C}^{m\times n}a_k=(a{ij}^{(k)})A^=(a_{ij}^)\in \mathbb{C}^{m\times n}$ 是常数矩阵。如果以下极限式

$$
\lim_{k\to +\infty} a_{ij}^{(k)} = a_{ij}^,\qquad i=1,2,\ldots,m;; j=1,2,\ldots,n.
$$
都成立,那么的极限是$A^
\infty{A_k}_{k=0}^\inftyA^*$

另外,称 为矩阵级数。令

如果

则称该矩阵级数收敛,且级数和为 ,记为

如果以下数项级数

都收敛,则称矩阵级数绝对收敛。

类似于高等数学中数值序列和级数的情况,矩阵序列和级数的以下结论也成立:

  1. 矩阵序列收敛,即$\lim_{k\rightarrow + \infty} A_k = A^$的充分条件是,对任意的矩阵范数 有 $\lim_{k\rightarrow + \infty} \Vert A_k - A^ \Vert = 0$
  2. 对任意给定的的d常数矩阵 如果级数(绝对)收敛,则级数 也(绝对)收敛,反之不然

幂级数


矩阵幂级数对矩阵函数的的定义和矩阵函数值的计算有重要的作用

给出定理 设复变量幂函数收敛半径为R,谱半径

  • , 矩阵幂级数绝对收敛
  • , 矩阵幂级数 发散

收敛半径:收敛半径专门针对幂级数。
幂级数长这样:

总存在一个收敛半径

  • : 级数一定(绝对)收敛
  • : 级数一定发散
  • : 边界点要单独判断,可能收敛也可能发散

复数上这个上R是以c为中心的收敛圆盘半径,实数情况就是(c-R, c+R)的半径

R的计算:

比值公式(对于幂级数而言,一般直接用这个):

根值公式:

推论:矩阵幂级数的绝对收敛等价于此时级数和为

矩阵函数

设幂级数 的收敛半径为R,且当时幂级数收敛于

如果的谱半径则称收敛的矩阵幂级数的和为矩阵函数,记为

时,对任意的

常见的矩阵函数有:

  • 指数函数

  • 正弦函数

  • 余弦函数

在实际应用中,下面的含参矩阵函数很重要:

  • 倒数函数

对于任意一个矩阵

  1. 通常情况下,

证明略

矩阵计算

如果一个矩阵是单纯形矩阵,则存在可逆矩阵使得

同样存在矩阵函数:

又可以从谱分解推导出:

那么可以这个式子计算单纯矩阵矩阵函数

如果矩阵不是单纯型矩阵,那么可以为jordan标准型

矩阵运算

矩阵乘法

(或 ),(或 ),则 (或 ,并且

转置,共轭转置

转置

  • 如果A可逆,

共轭转置

为共轭,实数不变,对虚数部分符号取反,并且有

  • 如果 可逆,
  • (补充)若 为实矩阵,则

Reference

[1] Buaa Matrix Analyse 2025 fall, Prof. Lv.

[2] ChatGPT-5.2, Openai.

[3] Doubao, BytesDance.

  • Title: 矩阵分析
  • Author: GelerCAT
  • Created at : 2025-12-18 15:31:23
  • Updated at : 2026-01-05 10:56:44
  • Link: https://redefine.ohevan.com/2025/12/18/矩阵分析/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments