You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

96 lines
9.3 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 45 | 线性代数篇答疑和总结:矩阵乘法的几何意义是什么?
你好,我是黄申。今天是线性代数的答疑和总结。
在这个模块中我们讲了不少向量、矩阵、线性方程相关的内容。看到大家在留言区的问题今天我重点说说矩阵乘法的几何意义以及为什么SVD中$XX$的特征向量组成了$V$矩阵,而$XX$的特征向量组成了$U$矩阵。最后,我会对整个线性代数的模块做一个总结。
## 矩阵乘法的几何意义
首先,我们来说说矩阵乘法所代表的几何意义。
在阐述PCA主成分分析的时候我们聊过为什么这个方法要研究协方差矩阵的特征值和特征向量。其中我提到对某个向量左乘一个矩阵实际上是对这个向量进行了一次变换。某个矩阵的特征向量表示了这个矩阵在空间中的变换方向这些方向都是正交或者趋于正交的而特征值表示每个方向上伸缩的比例。今天我会继续深入这个话题结合实例给出更详细地解释。
多维的向量空间很难理解所以我们还是从最简单的二维空间开始。首先我们需要明白什么是二维空间中的正交向量。正交向量的定义非常简单只要两个向量的点乘结果为0那么它们就是正交的。在酉矩阵之中矩阵和矩阵的转置相乘为单位矩阵只有向量自己点乘自己值为1而不同向量之间点乘值为0所以不同的向量之间是正交的。
理解了正交向量之后,我们来定义一个二维空间,这个空间的横坐标为$x$,纵坐标为$y$,空间中的一个点坐标为$(1,2)$,对于这个点,我们可以把从原点到它的直线投影到$x$轴和$y$轴,这个直线在$x$轴上投影的长度为1在y轴上投影的长度为2。我使用下图来表示。
![](https://static001.geekbang.org/resource/image/67/af/67b0b2634a6c53339b41579bf34f80af.png?wh=1340*910)
对于这个点,我们使用一个矩阵$X\_1$左乘这个点的坐标,你可以看看会发生什么。
![](https://static001.geekbang.org/resource/image/42/ba/423463beaff43e69429cc6b4f17910ba.png?wh=500*398)
我们把结果转成坐标系里的点,它的坐标是$(3, 4)$,把从原点到$(1,2)$的直线,和从原点到$(3,4)$的直线进行比较,你会发现直线发生了旋转,而且长度也发生了变化,这就是矩阵左乘所对应的几何意义。我们还可以对这个矩阵$X\_1$分析一下,看看它到底表示了什么含义,以及为什么它会导致直线的旋转和长度发生变化。
之前我讲过,要看一个矩阵的特征,需要分析它的特征向量和特征值。由于矩阵$X\_1$是一个对角矩阵所以特征值很容易求解分别是3和2。而对应的特征向量是$\[1, 0\]$和$\[0, 1\]$。在二维坐标中,坐标\[1, 0\]实际上表示的是$x$轴的方向,而\[0, 1\]实际上表示的是$y$轴的方向。特征值3对应特征向量\[1, 0\]就表明在$x$轴方向拉伸为原来的3倍特征值2对应特征向量\[0, 1\]就表明在$y$轴方向拉伸2倍。所以矩阵$X\_1$的左乘,就表示把原有向量在$x$轴上拉伸为原来的3倍而在$y$轴上拉伸为原来的2倍。我用下面这张图来展示。
![](https://static001.geekbang.org/resource/image/8e/80/8e42e5eace66c585d78dfa32226ec780.png?wh=1190*1076)
我们还可以从另一个角度来验证这点,把从原点到$(3, 4)$的直线进行分解,我们会发现这个直线在$x$轴上投影的长度为3为原来的3倍而在$y$轴上投影的长度为4为原来的2倍。
当然,矩阵的特征向量不一定是$x$轴和$y$轴,它们可以是二维空间中任何相互正交的向量。下面,我们再来看一个稍微复杂一点的例子。这次我们从两个正交的向量开始。
![](https://static001.geekbang.org/resource/image/32/f3/32bfec48931dcc52354db9624a0d9bf3.png?wh=366*324)
我使用下面这张图展示了这两个向量在空间的方向。
![](https://static001.geekbang.org/resource/image/07/04/0795164dbc78540fc5c0fc56713ae504.png?wh=1134*1028)
然后我用这两个向量构建一个矩阵$V$。
![](https://static001.geekbang.org/resource/image/9a/de/9a02adc8acb0d8f0b40bdc85eaea9cde.png?wh=360*258)
之所以使用这样一个例子,是因为$V$是一个酉矩阵,也就是说$VV=I$,所以我们可以使用它,外加一个特征值组成的对角矩阵$Σ$,来构建另一个用于测试的矩阵$X\_2$。我在SVD的那一讲介绍过对称方阵可以进行特征值分解所以我们可以通过$V$和$Σ$,获得一个对称方阵$X\_2=VΣV$。
我们假设两个特征值分别是0.5和2所以有
![](https://static001.geekbang.org/resource/image/26/6f/2606792083d27b6333428d03918e606f.png?wh=978*498)
根据我们之间的解释,如果让这个矩阵$X\_2$左乘任何一个向量,就是让向量沿$\[\\frac{1}{\\sqrt{2}} \\frac{1}{\\sqrt{2}}\]$方向压缩一半,而在$\[\\frac{1}{\\sqrt{2}} \\frac{-1}{\\sqrt{2}}\]$方向增加两倍。为了验证这一点,我们让$X\_2$左乘向量$(1, 2)$,获得新向量:
![](https://static001.geekbang.org/resource/image/2d/e3/2dd3d37508be334af83f9d6ec2a17fe3.png?wh=732*172)
把这个新的坐标$(-0.25, 1.75)$和原坐标$(1,2)$都放到二维坐标系中,并让它们分别在$\[\\frac{1}{\\sqrt{2}} \\frac{1}{\\sqrt{2}}\]$和$\[\\frac{1}{\\sqrt{2}} \\frac{-1}{\\sqrt{2}}\]$这两个方向进行投影,然后比较一下投影的长度,你就会发现伸缩的变化了。我使用下面这张图来帮你理解。
![](https://static001.geekbang.org/resource/image/be/a0/be3adac33d5359d8962ffa55f42ba6a0.png?wh=1174*1068)
弄清楚了矩阵左乘向量的几何意义,那么矩阵左乘矩阵的几何意义也就不难理解了。假设我们让矩阵$X$左乘矩阵$Y$,那么可以把右矩阵$Y$看作一堆列向量的集合,而左乘矩阵$X$就是对每个$Y$中的列向量进行变换。另外,如果二维空间理解了,那么三维、四维直到$n$维空间就可以以此类推了。
## SVD分解中的$U$和$V$矩阵
在讲解SVD奇异值分解的时候我们解释了$XX$的特征向量组成了SVD中的$V$矩阵,而$XX$的特征向量组成了SVD中的$U$矩阵。不过,我们还没有证明这两点。今天我来说说如何证明它们。首先,我们来看看$V$矩阵的证明。
$X=UΣV$
$X=VΣU$
$XX=(VΣU)(UΣV)=VΣ(UU)ΣV=VΣ^2V)$
其中,$(UΣV)=VΣU$的证明,我们在最小二乘法的讲解过程中证明过。另外,$U$是酉矩阵,所以$UU=I$。$Σ$是对角矩阵,所以$Σ’Σ=Σ2$,而且$Σ2$仍然是对角矩阵。
由于$Σ2$是对角矩阵,所以通过$XX=VΣ2V$,我们可以看出$V$中的向量就是$XX$的特征向量,而特征值是$Σ2$对角线上的值。
同理,我们也可以证明$U$中的向量就是$XX$的特征向量。
$X=UΣV$
$X=VΣU$
$XX=(UΣV)(VΣU)=UΣ(VV)ΣU=UΣ^2U)$
从这个证明的过程我们也发现了XX或者XX特征值矩阵等于奇异值矩阵的平方也就是说我们可以通过求出XX特征值的平方根来求奇异值。
## 总结
回答完两个问题之后,我来总结一下线性代数这个模块。
线性代数最基本的概念包括了向量、矩阵以及对应的操作。向量表示了一组数的概念非常适合表示一个对象的多维特征因此被广泛的运用在信息检索和机器学习的领域中。而矩阵又包含了多个向量所以适合表示多个数据对象的集合。同时矩阵也可以用于表达二维关系例如网页的邻接矩阵用户对物品的喜好程度关键词在文档中的tf-idf等等。
由于向量和矩阵的特性我们可以把它们运用在很多算法和模型之中。向量空间模型定义了向量之间的距离或者余弦夹角我们可以利用这些指标来衡量数据对象之间的相似程度并把这种相似程度用于定义查询和文档之间的相关性或者是文档聚类时的归属关系。矩阵的运算体现了对多个向量同时进行的操作比如最常见的左乘就可以用在计算PageRank值协同过滤中的用户或者物品相似度等等。
当然矩阵的运用还不只计算数据对象之间的关系。最小二乘法的实现、PCA主成分的分析、SVD奇异值的分解也可以基于矩阵的运算。这些都可以帮助我们发现不同维度特征之间的关系并利用这些关系找到哪些特征更为重要选择或者创建更为重要的特征。
有的时候,线性代数涉及的公式和推导比较繁琐。在思考的过程中,我们可以把矩阵的操作简化为向量之间的操作,而把向量之间的操作简化为多个变量之间的运算。另外,我们可以多结合实际的案例,结合几何空间、动手推算,甚至可以编程实现某些关键的模块,这些都有利于理解和记忆。
## 思考题
我想听你说说,学习完了编程领域中常用的线性代数知识,你有哪些收获和心得?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。