这一节里,我们先介绍一类重要的矩阵: 马尔科夫矩阵。有很多系统都可以建模为 Markov Matrix,特别的,从某个初始状态开始,每次按照 Markov Matrix 来状态转移,最终系统都会进入一种稳态 (steady state)。在之前的两讲中,我们分别介绍了矩阵的幂和difference equation的解, 矩阵的指数函数和differential equation的解。他们最终都可能进入steady state (分别取决于 1 特征值 和 0 特征值)。Markov matrix 对应的是矩阵的幂次,因此我们会发现,最终steady state 取决于特征值 1 对应的特征向量。
Markov matrix 的定义由以下两点给出
所有 entry 都是非负的每一列加起来为1.按照这种定义的 Markov matrix 也叫 left stochastic matrix。另一种常见的写法是 right stochastic matrix: 每一行加起来为1的矩阵 (就相当于转置了一下,需要左乘向量). 本节我们主要 focus on left stochastic matrix。
Fact 1: A \bm{A} A 和 A ⊤ \bm{A}^\top A⊤ 的特征值完全相同, 特征向量一般不同。
这个fact 把特征多项式转置一下就能很显然得出。
这样的矩阵有什么性质尼?
λ 1 = 1 \lambda_1 =1 λ1=1 一定是其特征值,且其对应的特征向量 x 1 ≥ 0 \bm{x_1}\geq 0 x1≥0 所有 entry 非负;其他所有特征值都不会在单位圆外, ∣ λ i ∣ ≤ 1 |\lambda_i|\leq 1 ∣λi∣≤1.我们来看看为什么Markov matrix有这样的性质: 1 1 1 是他们的特征值说明 ∣ A − I ∣ = 0 |\bm{A-I}|=0 ∣A−I∣=0
这也就意味着 A − I \bm{A-I} A−I 各行或者各列一定linearly dependent. 我们不妨把它写下来 A − I = [ a 11 − 1 a 12 a 13 . . . a 1 n a 21 a 22 − 1 a 23 . . . a 2 n . . . . . . . . . . . . . . . a n 1 a n 2 a n 3 . . . a n n − 1 ] \bm{A-I}=\begin{bmatrix} a_{11}-1 & a_{12} & a_{13} & ... & a_{1n} \\ a_{21} & a_{22}-1 & a_{23} & ... & a_{2n} \\ ... & ... & ... & ... & ... \\ a_{n1} & a_{n2} & a_{n3} & ... & a_{nn}-1 \\ \end{bmatrix} A−I=⎣⎢⎢⎡a11−1a21...an1a12a22−1...an2a13a23...an3............a1na2n...ann−1⎦⎥⎥⎤
把前 n n n 行 加在一起我们会得到 [ − a n 1 , − a n 2 , − a n 3 , . . . , 1 − a n n ] [-a_{n1},-a_{n2},-a_{n3},...,1-a_{nn}] [−an1,−an2,−an3,...,1−ann]
这与最后一行相关。因此其中一个特征值 λ 1 = 1 \lambda_1=1 λ1=1,但是他的特征向量就没那么好找了。
In general, left stochastic matrix λ = 1 \lambda=1 λ=1 对应的特征向量都不是很好找,right stochastic matrix λ = 1 \lambda=1 λ=1 对应的特征向量很简单就是 x 1 = [ 1 , 1 , 1 , . . . , 1 ] ⊤ \bm{x_1}=[1,1,1,...,1]^\top x1=[1,1,1,...,1]⊤.
Markov Matrix 性质带来的好处是解差分方程 u K = A K u 0 \bm{u_K}=\bm{A}^K\bm{u_0} uK=AKu0
在第22讲我们已经讲过,只要 A \bm{A} A 有 n n n 个线性无关的特征向量,我们就可以把 u 0 \bm{u_0} u0 写成 这些特征向量的线性组合,从而把 u K \bm{u_K} uK 写成 u 0 = S c \bm{u_0}=\bm{Sc} u0=Sc
u K = A K S c = Λ k S c = c 1 λ 1 k x 1 + c 2 λ 2 k x 2 + . . . + c n λ n k x n \bm{u_K}=\bm{A}^K\bm{S}\bm{c}=\Lambda^k \bm{S} \bm{c} =c_1\lambda_1^k\bm{x_1}+c_2\lambda_2^k\bm{x_2}+...+c_n\lambda_n^k\bm{x_n} uK=AKSc=ΛkSc=c1λ1kx1+c2λ2kx2+...+cnλnkxn
显然,如果 A \bm{A} A 是Markov matrix的话,只有 λ \lambda λ 为 1 的会保留下来,其他在单位圆内的全部消失。
比如如果只有 λ 1 = 1 \lambda_1=1 λ1=1, 那实际上最后的steady state 就是 c 1 x 1 c_1\bm{x_1} c1x1. 如果有更多的 λ = 1 \lambda=1 λ=1 那就是他们对应的特征向量的某个 linear combination (系数 c c c 由初始条件决定)。
在本节的第二部分,我们讲一下怎么把一个向量或者一个函数按照一组正交基展开。
我们都知道,如果矩阵 A n × n \bm{A}_{n\times n} An×n 各列线性无关,他的column space就是整个 R n \mathbb{R}^n Rn 空间, 任意向量都可以用这个矩阵的列线性组合表示,且各个系数就是向量在某一列上的投影。
那么,当 A = Q \bm{A=Q} A=Q 是正交阵时,有什么特别的结构尼?我们来看一下
v = c 1 q 1 + c 2 q 2 + . . . + c n q n \bm{v}=c_1\bm{q_1}+c_2\bm{q_2}+...+c_n\bm{q_n} v=c1q1+c2q2+...+cnqn
为了得到 c i c_i ci 我们在两边同乘 q i ⊤ \bm{q}_i^\top qi⊤ 即可: q i ⊤ v = q i ⊤ c 1 q 1 + q i ⊤ c 2 q 2 + . . . + q i ⊤ c n q n = c i \bm{q}_i^\top\bm{v}=\bm{q}_i^\top c_1\bm{q_1}+\bm{q}_i^\top c_2\bm{q_2}+...+\bm{q}_i^\top c_n\bm{q_n}=c_i qi⊤v=qi⊤c1q1+qi⊤c2q2+...+qi⊤cnqn=ci
用矩阵形式来写就是 Q c = v \bm{Qc=v} Qc=v
c = Q − 1 v = Q ⊤ v \bm{c}=\bm{Q}^{-1}\bm{v}=\bm{Q}^\top\bm{v} c=Q−1v=Q⊤v
其中每一项系数 c i = q i ⊤ v c_i=\bm{q}_i^\top\bm{v} ci=qi⊤v.
同样的,如果我们能找到一组函数正交基 (基中元素都是函数),那么对于周期函数 f ( x ) f(x) f(x), 我们都可以把它展开成正交基线性组合的形式。
傅里叶级数的思想就是如此, 它能将满足狄利克雷定理的任何周期函数或周期信号分解成一个(可能由无穷个元素组成的)简单振荡函数的集合,即正弦函数和余弦函数。
傅里叶级数 (Fourier series): 给定一组正交基 { sin x , cos x , sin 2 x , cos 2 x , sin 3 x , cos 3 x , . . . } \left\{ \sin x, \cos x, \sin 2x, \cos 2x, \sin 3x, \cos 3x, ... \right\} {sinx,cosx,sin2x,cos2x,sin3x,cos3x,...}
我们可以把周期函数 f ( x ) f(x) f(x) 展开为 f ( x ) = a 0 + a 1 cos x + b 1 sin x + a 2 cos 2 x + b 2 sin 2 x + . . . f(x)=a_0 + a_1\cos x + b_1 \sin x + a_2 \cos 2x + b_2 \sin 2x + ... f(x)=a0+a1cosx+b1sinx+a2cos2x+b2sin2x+...
其中,正交定义为 (这里都是周期函数, [ 0 , 2 π ] [0,2\pi] [0,2π] 内积分也足够) ∫ − ∞ ∞ cos n x sin m x d x = 0 \int_{-\infty}^\infty \cos nx \sin mx~dx=0 ∫−∞∞cosnxsinmx dx=0
系数可以两边积分得出,比如 a 1 a_1 a1
∫ − ∞ ∞ f ( x ) cos x d x = a 1 ∫ − ∞ ∞ cos 2 x d x = a 1 π \int_{-\infty}^\infty f(x)\cos x~dx=a_1\int_{-\infty}^\infty \cos^2 x~dx =a_1\pi ∫−∞∞f(x)cosx dx=a1∫−∞∞cos2x dx=a1π
a 1 = 1 π ∫ − ∞ ∞ f ( x ) cos x d x a_1=\frac{1}{\pi}\int_{-\infty}^\infty f(x) \cos x ~dx a1=π1∫−∞∞f(x)cosx dx