You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

468 lines
20 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 04 | 解线性方程组:为什么用矩阵求解的效率这么高?
你好,我是朱维刚。欢迎你跟我一起重学线性代数!
在上一节课中,我讲解了线性方程组的另一种表达——矩阵。那么今天,我们就来讲解一下如何使用矩阵来解线性方程组,也就是如何求线性方程组的特殊解和通用解。
简单的线性方程组我们当然可以运用初中学过的知识来求解那复杂的呢硬来几乎是不可能的了一方面是因为人工计算的错误率很高另一方面即使我们使用计算机用类似for或while循环来实现算法它的计算效率也是极低的。你需要用更科学的方式、方法从另一个角度来看待和求解线性方程组。
而矩阵就是为我们打开高效之门的钥匙,从计算机科学的角度来说,使用矩阵的运算效率实在是高太多了,因为它可以利用计算机的并行能力,甚至在一些迭代法中,还能实现分布式并行计算(迭代法会在后面“应用篇”中讲解)。
## 线性方程组解的寻找
现在,就让我们开始去寻找线性方程组的解。在之前的课程中,我们已经引入了线性方程组的一般表达,你可以看看下面的例子。
$$
\\left\\{\\begin{array}{l}
a\_{11} x\_{1}+a\_{12} x\_{2}+\\cdots+a\_{1 n} x\_{n}=b\_{1} \\\\\\
a\_{21} x\_{1}+a\_{22} x\_{2}+\\cdots+a\_{2 n} x\_{n}=b\_{2} \\\\\\
\\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\cdots \\\\\\
a\_{m 1} x\_{1}+a\_{m 2} x\_{2}+\\cdots+a\_{m n} x\_{n}=b\_{m}
\\end{array}\\right.
$$
其中,$a\_{ij}$和 $b\_{i}$ 属于实数,而且是已知常数,而$x\_{j}$是未知变量,$i$和$j$的取值范围分别是:$i=1,…,m$$j=1,…,n$ 。如果我们用矩阵的简单表达方式来看的话,就是$Ax=B$。
要搞清楚概念,我们还是要多看具体的例子。让我们先来看一个实例,来加深一下理解。
$$
\\left\[\\begin{array}{cccc}
1 & 0 & 8 & -4 \\\\\\
0 & 1 & 2 & 12
\\end{array}\\right\]\\left\[\\begin{array}{c}
x\_{1} \\\\\\
x\_{2} \\\\\\
x\_{3} \\\\\\
x\_{4}
\\end{array}\\right\]=\\left\[\\begin{array}{c}
42 \\\\\\
8
\\end{array}\\right\]
$$
很明显,这是一个矩阵表达方式。它的一般线性方程组表达方式是中学的基础知识,你应该很熟悉了。
$$
\\left\\{\\begin{array}{l}
1 \\times x\_{1}+0 \\times x\_{2}+8 \\times x\_{3}+(-4) \\times x\_{4}=42 \\\\\\
0 \\times x\_{1}+1 \\times x\_{2}+2 \\times x\_{3}+12 \\times x\_{4}=8
\\end{array}\\right.
$$
在这个一般线性方程组中有四个未知变量但只有两个等式这就意味着这个线性方程组有无穷多个解这个是中学数学的范畴。通过细心观察我们可以发现第一列和第二列都是由0和1组成的因此你很容易就能发现其中一个解。
$$
42\\left\[\\begin{array}{l}
1 \\\\\\
0
\\end{array}\\right\]+8\\left\[\\begin{array}{l}
0 \\\\\\
1
\\end{array}\\right\]=\\left\[\\begin{array}{c}
42 \\\\\\
8
\\end{array}\\right\]
$$
这个解就是$\\left\[\\begin{array}{llll}42 & 8 & 0 & 0\\end{array}\\right\]^{T}$,也就是说四个未知变量分别为$42$、$8$、$0$、$0$。
$$
\\left\\{\\begin{array}{l}
x\_{1}=42 \\\\\\
x\_{2}=8 \\\\\\
x\_{3}=0 \\\\\\
x\_{4}=0
\\end{array}\\right.
$$
这个解也叫做特殊解。我们刚才已经说过这个线性方程组有无穷多个解那我们确实需要一个聪明的方式来找到其他的解最直观的方式就是通过矩阵的列来构造0。例如对于第三列来说我们可以使用第一和第二列的组合形式来表达。
$$
8\\left\[\\begin{array}{l}
1 \\\\\\
0
\\end{array}\\right\]+2\\left\[\\begin{array}{l}
0 \\\\\\
1
\\end{array}\\right\]=\\left\[\\begin{array}{l}
8 \\\\\\
2
\\end{array}\\right\]
$$
通过计算$Ax=0$,我们得出解$\\left\[\\begin{array}{llll}8 & 2 & -1 & 0\\end{array}\\right\]^{T}$。而事实上,这个解可以乘以任何实数$λ\_{1}$,使得$Ax=0$成立。
$$
\\left\[\\begin{array}{cccc}
1 & 0 & 8 & -4 \\\\\\
0 & 1 & 2 & 12
\\end{array}\\right\]
\\left(\\begin{array}{l}
\\lambda\_{1}\\left\[\\begin{array}{l}
8 \\\\\\
2 \\\\\\
\-1 \\\\\\
0
\\end{array}\\right\]
\\end{array}\\right)=0
$$
同理,对于第四列来说,我们可以使用第一和第二列的组合形式来表达,得出另一套解,使得$Ax=0$。
$$
\\left\[\\begin{array}{cccc}
1 & 0 & 8 & -4 \\\\\\
0 & 1 & 2 & 12
\\end{array}\\right\]
\\left(\\begin{array}{l}
\\lambda\_{2}\\left\[\\begin{array}{l}
\-4 \\\\\\
12 \\\\\\
0 \\\\\\
\-1
\\end{array}\\right\]
\\end{array}\\right)=0
$$
现在,我们可以把之前的特殊解与刚得出的两套解相组合,得出最终解,这个解也就是我们所说的通用解了。
$$
x \\in R^{4}: x=\\left\[\\begin{array}{c}
42 \\\\\\
8 \\\\\\
0 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{1}\\left\[\\begin{array}{c}
8 \\\\\\
2 \\\\\\
\-1 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{2}\\left\[\\begin{array}{c}
\-4 \\\\\\
12 \\\\\\
0 \\\\\\
\-1
\\end{array}\\right\], \\lambda\_{1}, \\lambda\_{2} \\in R
$$
我来总结一下寻找通用解的过程,这个过程分为三步:
1. 我们要寻找一个特殊解,使得$Ax=b$
2. 找到$Ax=0$的所有解;
3. 组合第一和第二步的解形成通用解。
看到了这里你有没有发现有些奇怪呢或者说有没有觉得哪里有点别扭是的好像有点太顺利了。那是因为这个线性方程组比较特别第一列和第二列是由1和0组成的。所以我们只通过观察就能得出特殊解和通用解。
然而,你不可能每次都行大运,就像我们在现实中碰到的这类线性方程组,一般都比这个复杂得多。不过不要慌,有一个算法可以来帮助我们转换任意线性方程组,形成类似的特殊形式,这个算法叫做**高斯消元法**。
高斯消元法的核心就是**线性方程组的初等变换**,于是,我们可以通过高斯消元法,得到围绕初等变换形成的简单矩阵表达形式,接下来我们就可以运用之前的三个步骤来寻找通用解了。
## 初等变换的一般形式
既然高斯消元法的核心就是线性方程组的初等变换,那为了方便你使用高斯消元法,我就有必要来讲一讲初等变换的一般形式有哪些:
1. 两个等式的交换,也就是矩阵行交换;
2. 一个等式,或者说矩阵行乘以一个实数常量;
3. 两个等式相加,或者说矩阵的两行相加。
道理是这样的道理那我们通过一个例子来看看究竟该怎么做线性方程组的初等变换。假设a属于实数现在我们试着来寻找下面这个线性方程组的所有解。我把这个过程细细地拆解为11个步骤建议你仔细看过并理解后再进入下一阶段的学习。
$$
\\left\\{\\begin{array}{c}
\-2 x\_{1}+4 x\_{2}-2 x\_{3}-x\_{4}+4 x\_{5}=-3 \\\\\\
4 x\_{1}-8 x\_{2}+3 x\_{3}-3 x\_{4}+x\_{5}=2 \\\\\\
x\_{1}-2 x\_{2}+x\_{3}-x\_{4}+x\_{5}=0 \\\\\\
x\_{1}-2 x\_{2}-3 x\_{4}+4 x\_{5}=a
\\end{array}\\right.
$$
1.我们要把这个线性方程组转换成矩阵的表达形式,$Ax=b$。
$$
\\left\[\\begin{array}{ccccccc}
\-2 & 4 & -2 & -1 & 4 & \\mid & -3 \\\\\\
4 & -8 & 3 & -3 & 1 & \\mid & 2 \\\\\\
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
1 & -2 & 0 & -3 & 4 & \\mid & a
\\end{array}\\right\]
$$
2.接着我们来交换第一和第三行。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
4 & -8 & 3 & -3 & 1 & \\mid & 2 \\\\\\
\-2 & 4 & -2 & -1 & 4 & \\mid & -3 \\\\\\
1 & -2 & 0 & -3 & 4 & \\mid & a
\\end{array}\\right\]
$$
注意你知道我们为什么选择第一行和第三行交换吗其实这是为了便于计算。而具体交换哪一行是有个小技巧的如果某行的第一个元素有1我们就可以把这一行移到第一行。
3.我们以第一行为基础,开始执行乘和加变换,将第一行乘以-4的结果和第二行相加从而获得了下面这样的结果。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & -1 & 1 & -3 & \\mid & 2 \\\\\\
\-2 & 4 & -2 & -1 & 4 & \\mid & -3 \\\\\\
1 & -2 & 0 & -3 & 4 & \\mid & a
\\end{array}\\right\]
$$
4.然后我们用同样的方法将第一行乘以2的结果再和第三行相加得到了下面这样的结果。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & -1 & 1 & -3 & \\mid & 2 \\\\\\
0 & 0 & 0 & -3 & 6 & \\mid & -3 \\\\\\
1 & -2 & 0 & -3 & 4 & \\mid & a
\\end{array}\\right\]
$$
5.以此类推,我们将第一行乘以-1的结果和第四行相加继续获得新矩阵。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & -1 & 1 & -3 & \\mid & 2 \\\\\\
0 & 0 & 0 & -3 & 6 & \\mid & -3 \\\\\\
0 & 0 & -1 & -2 & 3 & \\mid & a
\\end{array}\\right\]
$$
6.将第二行乘以-1的结果和第四行相加得到下面这样的结果。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & -1 & 1 & -3 & \\mid & 2 \\\\\\
0 & 0 & 0 & -3 & 6 & \\mid & -3 \\\\\\
0 & 0 & 0 & -3 & 6 & \\mid & a-2
\\end{array}\\right\]
$$
7.将第三行乘以-1的结果和第四行相加。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & -1 & 1 & -3 & \\mid & 2 \\\\\\
0 & 0 & 0 & -3 & 6 & \\mid & -3 \\\\\\
0 & 0 & 0 & 0 & 0 & \\mid & a+1
\\end{array}\\right\]
$$
8.第二行乘以-1第三行乘以$-\\frac{1}{3}$。
$$
\\left\[\\begin{array}{ccccccc}
1 & -2 & 1 & -1 & 1 & \\mid & 0 \\\\\\
0 & 0 & 1 & -1 & 3 & \\mid & -2 \\\\\\
0 & 0 & 0 & 1 & -2 & \\mid & 1 \\\\\\
0 & 0 & 0 & 0 & 0 & \\mid & a+1
\\end{array}\\right\]
$$
9.现在,这个矩阵就是一个简单形式的矩阵,也叫做**行阶梯形矩阵**Row-Echelon FormREF
$$
\\left\\{\\begin{array}{r}
x\_{1}-2 x\_{2}+x\_{3}-x\_{4}+x\_{5}=0 \\\\\\
x\_{3}-x\_{4}+3 x\_{5}=-2 \\\\\\
x\_{4}-2 x\_{5}=1 \\\\\\
0=a+1
\\end{array}\\right.
$$
一个矩阵成为行阶梯形矩阵需满足两个条件:
* 如果它既有零行,又有非零行,则零行在下,非零行在上;
* 如果它有非零行则每个非零行的第一个非零元素所在列号自上而下严格单调上升正如之前的这个矩阵列号自上而下是1、3、4是严格单调上升的。
10.你可以看出,只有在$a=-1$的情况下,这个线性方程组才有解,特殊解是$\\left\[\\begin{array}{lllll}2 & 0 & -1 & 1 & 0\\end{array}\\right\]^{\\mathrm{T}}$。
11.最后,我们得出这个线性方程组的通用解,如下图所示。
$$
x \\in R^{5}: x=\\left\[\\begin{array}{c}
2 \\\\\\
0 \\\\\\
\-1 \\\\\\
1 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{1}\\left\[\\begin{array}{l}
2 \\\\\\
1 \\\\\\
0 \\\\\\
0 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{2}\\left\[\\begin{array}{c}
2 \\\\\\
0 \\\\\\
\-1 \\\\\\
2 \\\\\\
1
\\end{array}\\right\], \\lambda\_{1}, \\lambda\_{2} \\in R
$$
注意,这里有一个概念很重要,那就是**主元**。主元就是在矩阵消元过程中,每列要保留的非零元素,我们可以用它把该列其他元素消去。在阶梯型矩阵中,每个非零行第一个非零元素就是主元。
拿之前的第8步计算后的结果来举例第一行的第一个元素1就是主元第二行第三个元素1是主元第三行的第四个元素1也是主元。
![](https://static001.geekbang.org/resource/image/8f/1f/8f1cfb8cf55a5226f00979e2cfbab11f.png)
对应行阶梯形矩阵主元的变量叫做基本变量,而其他的变量叫做自由变量,这个例子中,$x\_{1}$、$x\_{3}$、$x\_{4}$就是基本变量,$x\_{2}$、$x\_{5}$则是自由变量。使用行阶梯形矩阵能更简单地得出特殊解,所以我们可以使用主元列来表达线性方程组:
$$
b=\\sum\_{i=1}^{P} \\lambda\_{i} \\mathrm{p}\_{i}, i=1, \\ldots, P
$$
在之前的例子中,我们使用主元列来表达成下面这样的矩阵形式:
$$
\\lambda\_{1}\\left\[\\begin{array}{l}
1 \\\\\\
0 \\\\\\
0 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{2}\\left\[\\begin{array}{l}
1 \\\\\\
1 \\\\\\
0 \\\\\\
0
\\end{array}\\right\]+\\lambda\_{3}\\left\[\\begin{array}{c}
\-1 \\\\\\
\-1 \\\\\\
1 \\\\\\
0
\\end{array}\\right\]=\\left\[\\begin{array}{c}
0 \\\\\\
\-2 \\\\\\
1 \\\\\\
0
\\end{array}\\right\]
$$
于是,我们最终得出 $λ\_{3}=1$$λ\_{2}=-1$$λ\_{1}=2$ ,分别对应于$x\_{4}$、$x\_{3}$、$x\_{1}$。不要忘了,对于非主元列,我们已经隐式地把系数设置成了$0$,所以这个线性方程组的特殊解是$x=\\left\[\\begin{array}{lllll}2 & 0 & -1 & 1 & 0\\end{array}\\right\]^{\\mathrm{T}}$。
## 简化行阶梯形矩阵
这里我们再引入一个概念,简化行阶梯形矩阵,因为引入简化行阶梯形矩阵对于线性方程组的求解来说会更简单。其实,高斯消元法的核心就是通过初等变换,把线性方程组转换成简化行阶梯形矩阵。那么一个方程组是简化行阶梯形矩阵,必须满足哪几个条件呢?
1. 这个方程组必须是行阶梯形矩阵;
2. 方程组的每一个主元都是1
3. 主元在它的列中是唯一的非0元素。
现在,我们再通过一个实例,看看该如何通过高斯消元法计算一个矩阵的逆矩阵。设矩阵$A$如下图:
$$
A=\\left\[\\begin{array}{llll}
1 & 0 & 2 & 0 \\\\\\
1 & 1 & 0 & 0 \\\\\\
1 & 2 & 0 & 1 \\\\\\
1 & 1 & 1 & 1
\\end{array}\\right\]
$$
首先,我们形成$A$的增广矩阵(具体方法参见上一节)。
$$
\\left\[\\begin{array}{lllllllll}
1 & 0 & 2 & 0 & \\mid & 1 & 0 & 0 & 0 \\\\\\
1 & 1 & 0 & 0 & \\mid & 0 & 1 & 0 & 0 \\\\\\
1 & 2 & 0 & 1 & \\mid & 0 & 0 & 1 & 0 \\\\\\
1 & 1 & 1 & 1 & \\mid & 0 & 0 & 0 & 1
\\end{array}\\right\]
$$
其次,使用我们前面刚刚讲过的高斯消元法计算出简化行阶梯形矩阵。
$$
\\left\[\\begin{array}{ccccccccc}
1 & 0 & 0 & 0 & \\mid & -1 & 2 & -2 & 2 \\\\\\
0 & 1 & 0 & 0 & \\mid & 1 & -1 & 2 & -2 \\\\\\
0 & 0 & 1 & 0 & \\mid & 1 & -1 & 1 & -1 \\\\\\
0 & 0 & 0 & 1 & \\mid & -1 & 0 & -1 & 2
\\end{array}\\right\]
$$
最后,我们就得到$A$的逆矩阵,如下图所示。
$$
A^{-1}=\\left\[\\begin{array}{cccc}
\-1 & 2 & -2 & 2 \\\\\\
1 & -1 & 2 & -2 \\\\\\
1 & -1 & 1 & -1 \\\\\\
\-1 & 0 & -1 & 2
\\end{array}\\right\]
$$
接下来,我们只要使用公式$A A^{-1}=I$ 就可以对结果进行验证了。
## 更多解线性方程组的方法
到目前为止,相信你已经了解了如何解线性方程组,包括特殊解和通用解,以及如何使用高斯消元法来解线性方程组。最后,我再总结一些解方法来作为你的知识扩展。
第一个方法假设一个矩阵A是方阵行数与列数相等的矩阵并且可逆$Ax=B$ ,那$x$解就可以写成$x=A^{-1}B$,但如果$A$矩阵不可逆,也不是方阵,那我们就只能使用下面这个变换来求$x$解了。
$$Ax=B⇔A^{T}Ax=A^{T}B⇔x=(A^{T}A)^{-1}A^{T}B$$
其中矩阵A的转置矩阵和A相乘的逆矩阵再和A的转置矩阵相乘我们把它叫做穆尔彭罗斯伪逆矩阵Moore-Penrose pseudo inverse简称伪逆。
$$(A^{T}A)^{-1}A^{T}$$
这个方法有两个弊端:第一,矩阵乘和逆矩阵的计算太复杂;第二,数值精确度不高。因此,从实践角度来说,我一般不推荐使用。
第二个方法是高斯消元法。高斯消元法是非常直观的,它在很多计算中都起到了关键的作用,比如:
1. 计算行列式;
2. 检查向量是否是线性独立的;
3. 计算矩阵的逆矩阵;
4. 计算矩阵的秩;
5. 决定向量空间的基。
但当高斯消元法面对百万、千万级别的变量时,就捉襟见肘了。而这类级别的计算才是我们在实践中经常会遇到的,因此从实践角度来说,我也一般不推荐使用。因为高斯消元法属于直接法,直接法是经历有限次的运算得到方程组精确解的方法。但是,学习直接法是有意义的,虽然直接法在实际工作中不常用,但是它也能处理一些日常小问题,更重要的是,它稳固了我们进一步学习其它方法的基础。
我要讲的第三种方法,就是与直接法对应的间接法了。在实践中,线性方程组的求解都是间接的,也就是运用迭代法。
迭代法是采用极限过程用线性方程组的近似解逐步逼近精确解的方法。所以迭代法的关键在于每次迭代残余错误的减少以及如何能够收敛到解。常见的迭代法有两类定常迭代法Stationary iterative method和Krylov子空间方法我会在应用篇中讲解
> 定常迭代法理查德森迭代法Richardson method、雅可比方法Jacobi method、Gauß-Seidel方法、逐次超松弛法Successive over-relaxation method简称SOR
> Krylov子空间方法共轭梯度法Conjugate gradient、 广义极小残余算法Generalized minimal residual、双共轭梯度法Biconjugate gradient
这里提到的几种迭代法都是在实践中比较常用的,也是计算机编程中经常实现的算法,但由于迭代法更多属于微分和极限领域,所以这里就不详细介绍了,我会在线性代数应用篇的“数值线性代数”那节课中再做讲解。
如果在课程内容结束后你还有余力学习更多的内容这里我先推荐两本书给你作参考一本是《Introduction to Numerical Analysis》另一本是《Linear Algebra》。这两本书里面都有进一步地讲解了线性方程组的迭代法求解的内容。
> 1.《Introduction to Numerical Analysis》
> 作者Stoer, Josef, Bulirsch, R.
> 2002年出版
> 2.《Linear Algebra》
> 作者Liesen, Jörg, Mehrmann, Volker
> 2015年出版
## 本节小结
好了,到这里解线性方程组这一讲就结束了,最后我再总结一下前面讲解的内容。
首先,我用一个简单的线性方程组,通过直接观察的方法来计算这个方程组的特殊解和通用解,接着通过实例详细地介绍了高斯消元法,最后我给出了一些在实践中常用的线性方程组解方法。只有弄清楚这些基础知识的本质,你才能更进一步,去了解其他计算方法。
线性方程组的求解已经成为了世界上最快计算机的测试标准,因为通过矩阵运算,计算机的并行计算能力暴露无遗。希望你能够在这些基础之上,阅读我推荐的两本书,并且把这些方法运用到实践中,特别是机器学习,因为机器学习也用到了很多迭代方法。
![](https://static001.geekbang.org/resource/image/24/8b/24dbdb71282f2685353b63bd4ec8ee8b.png)
## 线性代数练习场
练习时刻到了,今天的练习题比较简单,请你用高斯消元法求下面的线性方程组。
$$
\\left\\{\\begin{array}{c}
x\_{1}+x\_{2}-2 x\_{3}-x\_{4}=-1 \\\\\\
x\_{1}+5 x\_{2}-3 x\_{3}-2 x\_{4}=0 \\\\\\
3 x\_{1}-x\_{2}+x\_{3}+4 x\_{4}=2 \\\\\\
\-2 x\_{1}+2 x\_{2}+x\_{3}-x\_{4}=1
\\end{array}\\right.
$$
欢迎在留言区和[部落](https://horde.geekbang.org/channel/list/39)里晒出你的运算过程和结果,留下你的学习痕迹。如果你有所收获,也欢迎你把这篇文章分享给你的朋友。