You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

115 lines
12 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 33 | 线性代数:线性代数到底都讲了些什么?
你好,我是黄申。
通过第二模块的学习,我想你对概率统计在编程领域,特别是机器学习算法中的应用,已经有了一定理解。概率统计关注的是随机变量及其概率分布,以及如何通过观测数据来推断这些分布。可是,在解决很多问题的时候,我们不仅要关心单个变量之间的关系,还要进一步研究多个变量之间的关系,最典型的例子就是基于多个特征的信息检索和机器学习。
在信息检索中,我们需要考虑多个关键词特征对最终相关性的影响,而在机器学习中,无论是监督式还是非监督式学习,我们都需要考虑多个特征对模型拟合的影响。在研究多个变量之间关系的时候,线性代数成为了解决这类问题的有力工具。
另一方面在我们日常生活和工作中很多问题都可以线性化小到计算两个地点之间的距离大到计算互联网中全部网页的PageRank。所以为了使用编程来解决相应的问题我们也必须掌握一些必要的线性代数基础知识。因此我会从线性代数的基本概念出发结合信息检索和机器学习领域的知识详细讲解线性代数的运用。
关于线性代数,究竟都需要掌握哪些方面的知识呢?我们今天就来看一看,让你对之后一段时间所要学习的知识有个大体的了解。
## 向量和向量空间
我们之前所谈到的变量都属于**标量**Scalar。它只是一个单独的数字而且不能表示方向。从计算机数据结构的角度来看标量就是编程中最基本的变量。这个很好理解你可以回想一下刚开始学习编程时接触到的标量类型的变量。
和标量对应的概念,就是线性代数中最常用、也最重要的概念,**向量**Vector也可以叫做矢量。它代表一组数字并且这些数字是有序排列的。我们用数据结构的视角来看向量可以用数组或者链表来表达。
后面的文章里,我会用加粗的小写字母表示一个向量,例如$x$,而$x\_{1}x\_{2}x\_{3}x\_{n}$等等来表示向量中的每个元素这里面的n就是向量的维。
![](https://static001.geekbang.org/resource/image/0e/82/0e03179f68d39d5a26ad18acd4bbda82.png?wh=144*262)
向量和标量最大的区别在于,向量除了拥有数值的大小,还拥有方向。向量或者矢量中的“向”和“矢”这两个字,都表明它们是有方向的。你可能会问,为什么这一串数字能表示方向呢?
这是因为,如果我们把某个向量中的元素看作坐标轴上的坐标,那么这个向量就可以看作空间中的一个点。以原点为起点,以向量代表的点为终点,就能形成一条有向直线。而这样的处理其实已经给向量赋予了代数的含义,使得计算的过程中更加直观。在后面讨论向量空间、向量夹角、矩阵特征值等概念的时候,我会进一步展示给你看。
由于一个向量包含了很多个元素,因此我们自然地就可以把它运用在机器学习的领域。上一个模块,我讲过如何把自然界里物体的属性,转换为能够用数字表达的特征。由于特征有很多维,因此我们可以使用向量来表示某个物体的特征。其中,向量的每个元素就代表一维特征,而元素的值代表了相应特征的值,我们称这类向量为**特征向量**Feature Vector
需要注意的是,这个特征向量和**矩阵的特征向量**Eigenvector是两码事。那么矩阵的特征向量是什么意思呢矩阵的几何意义是坐标的变换。如果一个矩阵存在特征向量和特征值那么这个矩阵的特征向量就表示了它在空间中最主要的运动方向。如果你对这几个概念还不太理解也不用担心在介绍矩阵的时候我会详细说说什么是矩阵的特征向量。
## 向量的运算
标量和向量之间可以进行运算,比如标量和向量相加或者相乘时,我们直接把标量和向量中的每个元素相加或者相乘就行了,这个很好理解。可是,向量和向量之间的加法或乘法应该如何进行呢?我们需要先定义向量空间。向量空间理论上的定义比较繁琐,不过二维或者三维的坐标空间可以很好地帮助你来理解。这些空间主要有几个特性:
* 空间由无穷多个的位置点组成;
* 这些点之间存在相对的关系;
* 可以在空间中定义任意两点之间的长度,以及任意两个向量之间的角度;
* 这个空间的点可以进行移动。
有了这些特点,我们就可以定义向量之间的加法、乘法(或点乘)、距离和夹角等等。
两个向量之间的加法,首先它们需要维度相同,然后是对应的元素相加。
![](https://static001.geekbang.org/resource/image/ce/0b/ceff73e9e2f4f8bc3bc8d72e5cc9d80b.png?wh=962*440)
所以说,向量的加法实际上就是把几何问题转化成了代数问题,然后用代数的方法实现了几何的运算。我下面画了一张图,来解释二维空间里,两个向量的相加,看完你就能理解了。
![](https://static001.geekbang.org/resource/image/bf/9e/bf3780041ecb702bd3ae130aa4b4119e.png?wh=1126*746)
在这张图中有两个向量x和y它们的长度分别是x和y它们的相加结果是x+y这个结果所对应的点相当于x向量沿着y向量的方向移动y或者是y向量沿着x向量的方向移动x
向量之间的乘法默认是点乘向量x和y的点乘是这么定义的
![](https://static001.geekbang.org/resource/image/90/b2/907f5f302897d2ca31444d6f2144cdb2.png?wh=960*420)
点乘的作用是把相乘的两个向量转换成了标量它有具体的几何含义。我们会用点乘来计算向量的长度以及两个向量间的夹角所以一般情况下我们会默认向量间的乘法是点乘。至于向量之间的夹角和距离它们在向量空间模型Vector Space Model中发挥了重要的作用。信息检索和机器学习等领域充分利用了向量空间模型计算不同对象之间的相似程度。在之后的专栏里我会通过向量空间模型详细介绍向量点乘以及向量间夹角和距离的计算。
## 矩阵的运算
矩阵由多个长度相等的向量组成其中的每列或者每行就是一个向量。因此我们把向量延伸一下就能得到矩阵Matrix
从数据结构的角度看向量是一维数组那矩阵就是一个二维数组。如果二维数组里绝大多数元素都是0或者不存在的值那么我们就称这个矩阵很稀疏Sparse。对于稀疏矩阵我们可以使用哈希表的链地址法来表示。所以矩阵中的每个元素有两个索引。
我用加粗的斜体大写字母表示一个矩阵,例如$X$,而$X\_{12}X\_{22}X\_{nm}$等等表示矩阵中的每个元素而这里面的n和m分别表示矩阵的行维数和列维数。
我们换个角度来看向量其实也是一种特殊的矩阵。如果一个矩阵是n × m维那么一个n × 1的矩阵也可以称作一个n维列向量而一个1 × m矩阵也称为一个m维行向量。
同样,我们也可以定义标量和矩阵之间的加法和乘法,我们只需要把标量和矩阵中的每个元素相加或相乘就可以了。剩下的问题就是,矩阵和矩阵之间是如何进行加法和乘法的呢?矩阵加法比较简单,只要保证参与操作的两个矩阵具有相同的行维度和列维度,我们就可以把对应的元素两两相加。而乘法略微繁琐一些,如果写成公式就是这种形式:
![](https://static001.geekbang.org/resource/image/64/85/6466b4df93b4dc7bfd7d73ca258f0185.png?wh=380*226)
其中,矩阵$Z$为矩阵$X$和$Y$的乘积,$X$是形状为i x k的矩阵而$Y$是形状为k × j的矩阵。$X$的列数k必须和$Y$的行数k相等两者才可以进行这样的乘法。
我们可以把这个过程看作矩阵$X$的行向量和矩阵$Y$的列向量两两进行点乘,我这里画了张图,你理解了这张图就不难记住这个公式了。
![](https://static001.geekbang.org/resource/image/d7/cf/d718c22f06c9250028867c74e5daedcf.png?wh=1486*552)
两个矩阵中对应元素进行相乘,这种操作也是存在的,我们称它为元素**对应乘积**或者Hadamard乘积。但是这种乘法咱们用得比较少所以你只要知道有这个概念就可以了。
除了加法和乘法,矩阵还有一些其他重要的操作,包括转置、求逆矩阵、求特征值和求奇异值等等。
**转置**Transposition是指矩阵内的元素行索引和纵索引互换例如$X\_{ij}$就变为$X\_{ji}$相应的矩阵的形状由转置前的n × m变为转置后的m × n。从几何的角度来说矩阵的转置就是原矩阵以对角线为轴进行翻转后的结果。下面这张图展示了矩阵$X$转置之后的矩阵$X$
![](https://static001.geekbang.org/resource/image/a0/c1/a024d2504f9a6351b5b815ff251a7bc1.png?wh=1652*552)
除了转置矩阵另一个重要的概念是逆矩阵。为了理解逆矩阵或矩阵逆Matrix Inversion我们首先要理解单位矩阵Identity Matrix。单位矩阵中所有沿主对角线的元素都是1而其他位置的所有元素都是0。通常我们只考虑单位矩阵为方阵的情况也就是行数和列数相等我们把它记作$I\_{n}$$n$表示维数。我这里给出一个$I\_{5}$的示例。
![](https://static001.geekbang.org/resource/image/56/00/56451a7a823444abc5791f4bc7ea6800.png?wh=474*406)
如果有矩阵$X$,我们把它的逆矩阵记做$X^{-1}$,两者相乘的结果是单位矩阵,写成公式就是这种形式:
![](https://static001.geekbang.org/resource/image/51/65/51adb30f4c592f3a10f2490f75913f65.png?wh=232*90)
特征值和奇异值的概念以及求解比较复杂,从大体上来理解,它们可以帮助我们找到矩阵最主要的特点。通过这些操作,我们就可以在机器学习算法中降低特征向量的维度,达到特征选择和变换的目的。我会在后面的专栏,结合案例给你详细讲解。
## 总结
相对于概率统计,线性代数中的基本概念和知识点可能没有那么多。但是对于刚入门的初学者,这些内容理解起来会比较费力。在这一节里,我进行了大致的梳理,帮助你学习。
标量和向量的区别,标量只是单独的一个数,而向量是一组数。矩阵是向量的扩展,就是一个二维数组。我们可以使用哈希表的链地址法表示稀疏矩阵。
标量和向量或矩阵的加法、乘法比较简单,就是把这个标量和向量或矩阵中所有的元素轮流进行相加或相乘。向量之间的加法和矩阵之间的加法,是把两者对应的元素相加。向量之间的相乘分为叉乘和点乘,我在专栏里默认向量乘法为点乘。而矩阵的乘法默认为左矩阵的行向量和右矩阵的列向量两两点乘。
说到这里,你可能还是不太理解线性代数对于编程有什么用处。在这个模块之后的内容中,我会详细介绍向量空间模型、线性方程组、矩阵求特征值和奇异值分解等,在信息检索和机器学习领域中,有怎样的应用场景。
## 思考题
之前你对线性代数的认识是什么样的呢?对这块内容,你觉得最难的是什么?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。