You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

392 lines
21 KiB
Markdown

2 years ago
# 16 | NFA和DFA如何自己实现一个正则表达式工具
回顾之前讲的内容,原理篇重在建立直观理解,帮你建立信心,这是第一轮的认知迭代。应用篇帮你涉足应用领域,在解决领域问题时发挥编译技术的威力,积累运用编译技术的一手经验,也启发你用编译技术去解决更多的领域问题,这是第二轮的认知迭代。而为时三节课的算法篇将你是第三轮的认知迭代。
在第三轮的认知迭代中,我会带你掌握前端技术中的核心算法。而本节课,我就借“怎样实现正则表达式工具?”这个问题,探讨第一组算法:**与正则表达式处理有关的算法。**
在词法分析阶段我们可以手工构造有限自动机FSA或FSM实现词法解析过程比较简单。现在我们不再手工构造词法分析器而是直接用正则表达式解析词法。
你会发现我们只要写一些规则就能基于这些规则分析和处理文本。这种能够理解正则表达式的功能除了能生成词法分析器还有很多用途。比如Linux的三个超级命令又称三剑客grep、awk和sed都是因为能够直接支持正则表达式功能才变得强大的。
接下来,我就带你完成编写正则表达式工具的任务,与此同时,你就能用正则文法生成词法分析器了:
**首先,**把正则表达式翻译成非确定的有限自动机Nondeterministic Finite AutomatonNFA
**其次,**基于NFA处理字符串看看它有什么特点。
**然后,**把非确定的有限自动机转换成确定的有限自动机Deterministic Finite AutomatonDFA
**最后,**运行DFA看看它有什么特点。
强调一下,不要被非确定的有限自动机、确定的有限自动机这些概念吓倒,我肯定让你学明白。
## 认识DFA和NFA
在讲词法分析时我提到有限自动机FSA有有限个状态。识别Token的过程就是FSA状态迁移的过程。其中FSA分为**确定的有限自动机DFA**和**非确定的有限自动机NFA。**
**DFA的特点是**在任何一个状态,我们基于输入的字符串,都能做一个确定的转换,比如:
![](https://static001.geekbang.org/resource/image/15/35/15da400d09ede2ce6ac60fa6d5342835.jpg)
**NFA的特点是**它存在某些状态,针对某些输入,不能做一个确定的转换,这又细分成两种情况:
* 对于一个输入,它有两个状态可以转换。
* 存在ε转换。也就是没有任何输入的情况下,也可以从一个状态迁移到另一个状态。
比如“a\[a-zA-Z0-9\]\*bc”这个正则表达式对字符串的要求是以a开头以bc结尾a和bc之间可以有任意多个字母或数字。在图中状态1的节点输入b时这个状态是有两条路径可以选择的所以这个有限自动机是一个NFA。
![](https://static001.geekbang.org/resource/image/9b/e8/9bf26739958568453cceeb6f209da2e8.jpg)
这个NFA还有引入ε转换的画法它们是等价的。实际上第二个NFA可以用我们今天讲的算法通过正则表达式自动生成出来。
![](https://static001.geekbang.org/resource/image/9b/09/9bb22ee26309b3076db53fee34112009.jpg)
需要注意的是无论是NFA还是DFA都等价于正则表达式。也就是所有的正则表达式都能转换成NFA或DFA所有的NFA或DFA也都能转换成正则表达式。
理解了NFA和DFA之后来看看我们如何从正则表达式生成NFA。
## 从正则表达式生成NFA
我们需要把它分为两个子任务:
**第一个子任务,**是把正则表达式解析成一个内部的数据结构,便于后续的程序使用。因为正则表达式也是个字符串,所以要先做一个小的编译器,去理解代表正则表达式的字符串。我们可以偷个懒,直接针对示例的正则表达式生成相应的数据结构,不需要做出这个编译器。
用来测试的正则表达式可以是int关键字、标识符或者数字字面量
```
int | [a-zA-Z][a-zA-Z0-9]* | [0-9]+
```
我用下面这段代码创建了一个树状的数据结构,来代表用来测试的正则表达式:
```
private static GrammarNode sampleGrammar1() {
GrammarNode node = new GrammarNode("regex1",GrammarNodeType.Or);
//int关键字
GrammarNode intNode = node.createChild(GrammarNodeType.And);
intNode.createChild(new CharSet('i'));
intNode.createChild(new CharSet('n'));
intNode.createChild(new CharSet('t'));
//标识符
GrammarNode idNode = node.createChild(GrammarNodeType.And);
GrammarNode firstLetter = idNode.createChild(CharSet.letter);
GrammarNode letterOrDigit = idNode.createChild(CharSet.letterOrDigit);
letterOrDigit.setRepeatTimes(0, -1);
//数字字面量
GrammarNode literalNode = node.createChild(CharSet.digit);
literalNode.setRepeatTimes(1, -1);
return node;
}
```
打印输出的结果如下:
```
RegExpression
Or
Union
i
n
t
Union
[a-z]|[A-Z]
[0-9]|[a-z]|[A-Z]*
[0-9]+
```
画成图会更直观一些:
![](https://static001.geekbang.org/resource/image/a6/8e/a6af22cdcb96ba92fe9df35bf998768e.jpg)
测试数据生成之后,**第二个子任务**就是把表示正则表达式的数据结构转换成一个NFA。这个过程比较简单因为针对正则表达式中的每一个结构我们都可以按照一个固定的规则做转换。
* 识别ε的NFA
> 不接受任何输入,也能从一个状态迁移到另一个状态,状态图的边上标注ε。
![](https://static001.geekbang.org/resource/image/0d/ed/0d11ad629f809a94ff091199f27661ed.jpg)
* 识别i的NFA
> 当接受字符i的时候引发一个转换状态图的边上标注i。
![](https://static001.geekbang.org/resource/image/fe/bc/fe3edc36b5bd69e88eebcd0d28aa4abc.jpg)
* 转换“s|t”这样的正则表达式
> 它的意思是或者s或者t二者选一。s和t本身是两个子表达式我们可以增加两个新的状态**开始状态和接受状态(最终状态)**也就是图中带双线的状态它意味着被检验的字符串此时是符合正则表达式的。然后用ε转换分别连接代表s和t的子图。它的含义也比较直观要么走上面这条路径那就是s要么走下面这条路径那就是t。
![](https://static001.geekbang.org/resource/image/19/95/197071ebe504889264cf8c955d112895.jpg)
* 转换“st”这样的正则表达式
> s之后接着出现t转换规则是把s的开始状态变成st整体的开始状态把t的结束状态变成st整体的结束状态并且把s的结束状态和t的开始状态合二为一。这样就把两个子图接了起来走完s接着走t。
![](https://static001.geekbang.org/resource/image/95/0b/9504b495df0de1cc59ef8d8357c49e0b.jpg)
* 对于“?”“\*”和“+”这样的操作:
> 意思是可以重复0次、0到多次、1到多次转换时要增加额外的状态和边。
以“s\*”为例,做下面的转换:
![](https://static001.geekbang.org/resource/image/40/c5/409d889a2c811221a0cfdd81f32df4c5.jpg)
你能看出它可以从i直接到f也就是对s匹配零次也可以在s的起止节点上循环多次。
* “s+”:
> 没有办法跳过ss至少经过一次。
![](https://static001.geekbang.org/resource/image/a7/07/a753fb42e82341d381c3cbca0247b007.png)
按照这些规则,我们可以编写程序进行转换。你可以参考示例代码[Regex.java](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Regex.java)中的regexToNFA方法。转换完毕以后将生成的NFA打印输出列出了所有的状态以及每个状态到其他状态的转换比如“0 ε -> 2”的意思是从状态0通过ε转换到达状态2
```
NFA states:
0 ε -> 2
ε -> 8
ε -> 14
2 i -> 3
3 n -> 5
5 t -> 7
7 ε -> 1
1 (end)
acceptable
8 [a-z]|[A-Z] -> 9
9 ε -> 10
ε -> 13
10 [0-9]|[a-z]|[A-Z] -> 11
11 ε -> 10
ε -> 13
13 ε -> 1
14 [0-9] -> 15
15 ε -> 14
ε -> 1
```
我用图片直观地展示了输出结果图中分为上中下三条路径你能清晰地看出解析int关键字、标识符和数字字面量的过程
![](https://static001.geekbang.org/resource/image/3d/9b/3defa4a1d7ce789b6c6cfecdfbf8179b.jpg)
生成NFA之后如何利用它识别某个字符串是否符合这个NFA代表的正则表达式呢
以上图为例当我们解析intA这个字符串时首先选择最上面的路径去匹配匹配完int这三个字符以后来到状态7若后面没有其他字符就可以到达接受状态1返回匹配成功的信息。可实际上int后面是有A的所以第一条路径匹配失败。
失败之后不能直接返回“匹配失败”的结果因为还有其他路径所以我们要回溯到状态0去尝试第二条路径在第二条路径中尝试成功了。
运行Regex.java中的matchWithNFA()方法你可以用NFA来做正则表达式的匹配
```
/**
* 用NFA来匹配字符串
* @param state 当前所在的状态
* @param chars 要匹配的字符串,用数组表示
* @param index1 当前匹配字符开始的位置。
* @return 匹配后新index的位置。指向匹配成功的字符的下一个字符。
*/
private static int matchWithNFA(State state, char[] chars, int index1){
System.out.println("trying state : " + state.name + ", index =" + index1);
int index2 = index1;
for (Transition transition : state.transitions()){
State nextState = state.getState(transition);
//epsilon转换
if (transition.isEpsilon()){
index2 = matchWithNFA(nextState, chars, index1);
if (index2 == chars.length){
break;
}
}
//消化掉一个字符,指针前移
else if (transition.match(chars[index1])){
index2 ++; //消耗掉一个字符
if (index2 < chars.length) {
index2 = matchWithNFA(nextState, chars, index1 + 1);
}
//如果已经扫描完所有字符
//检查当前状态是否是接受状态或者可以通过epsilon到达接受状态
//如果状态机还没有到达接受状态,本次匹配失败
else {
if (acceptable(nextState)) {
break;
}
else{
index2 = -1;
}
}
}
}
return index2;
}
```
其中在匹配“intA”时你会看到它的回溯过程
```
NFA matching: 'intA'
trying state : 0, index =0
trying state : 2, index =0 //先走第一条路径即int关键字这个路径
trying state : 3, index =1
trying state : 5, index =2
trying state : 7, index =3
trying state : 1, index =3 //到了末尾了,发现还有字符'A'没有匹配上
trying state : 8, index =0 //回溯,尝试第二条路径,即标识符
trying state : 9, index =1
trying state : 10, index =1 //在10和11这里循环多次
trying state : 11, index =2
trying state : 10, index =2
trying state : 11, index =3
trying state : 10, index =3
true
```
**从中可以看到用NFA算法的特点**因为存在多条可能的路径所以需要试探和回溯在比较极端的情况下回溯次数会非常多性能会变得非常慢。特别是当处理类似s\*这样的语句时因为s可以重复0到无穷次所以在匹配字符串时可能需要尝试很多次。
注意在我们生成的NFA中如果一个状态有两条路径到其他状态算法会依据一定的顺序来尝试不同的路径。
9和11两个状态都有两条向外走的线其中红色的线是更优先的路径也就是尝试让\*号匹配尽量多的字符。这种算法策略叫做“贪婪greedy”策略。
在有的情况下,我们会希望让算法采用非贪婪策略,或者叫“忽略优先”策略,以便让效率更高。有的正则表达式工具会支持多加一个?,比如??、\*?、+?,来表示非贪婪策略。
NFA的运行可能导致大量的回溯所以能否将NFA转换成DFA让字符串的匹配过程更简单呢如果能的话那整个过程都可以自动化从正则表达式到NFA再从NFA到DFA。
## 把NFA转换成DFA
的确有这样的算法,那就是**子集构造法,**它的思路如下。
首先NFA有一个初始状态从状态0通过ε转换可以到达的所有状态也就是说在不接受任何输入的情况下从状态0也可以到达的状态。这个状态的集合叫做“状态0的ε闭包”简单一点儿我们称之为s0s0包含0、2、8、14这几个状态。
![](https://static001.geekbang.org/resource/image/9c/f7/9c35bf11efb869c5fa4a22e23de52ff7.jpg)
将字母i给到s0中的每一个状态看它们能转换成什么状态再把这些状态通过ε转换就能到达的状态也加入进来形成一个包含“3、9、10、13、1”5个状态的集合s1。其中3和9是接受了字母i所迁移到的状态10、13、1是在状态9的ε闭包中。
![](https://static001.geekbang.org/resource/image/d2/40/d2f3035a3492b680c56777b7fa375e40.jpg)
在s0和s1中间画条迁移线标注上i意思是s0接收到i的情况下转换到s1
![](https://static001.geekbang.org/resource/image/58/29/58388daf0627d0bc71efbf7b48401029.jpg)
在这里我们把s0和s1分别看成一个状态。也就是说要生成的DFA它的每个状态是原来的NFA的某些状态的集合。
在上面的推导过程中,我们有两个主要的计算:
1.ε-closure(s)即集合s的ε闭包。也就是从集合s中的每个节点加上从这个节点出发通过ε转换所能到达的所有状态。
2.move(s, i)即从集合s接收一个字符i所能到达的新状态的集合。
所以s1 = ε-closure(move(s0,i))
按照上面的思路继续推导识别int关键字的识别路径也就推导出来了
![](https://static001.geekbang.org/resource/image/be/00/be1a150ce14e828e8e9993b419360e00.jpg)
我们把上面这种推导的思路写成算法,参见[Regex.java](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Regex.java)中的NFA2DFA()方法。我写了一段伪代码,方便你阅读:
```
计算s0即状态0的ε闭包
把s0压入待处理栈
把s0加入所有状态集的集合S
循环:待处理栈内还有未处理的状态集
循环针对字母表中的每个字符c
循环针对栈里的每个状态集合s(i)(未处理的状态集)
计算s(m) = move(s(i), c)就是从s(i)出发接收字符c能够
迁移到的新状态的集合)
计算s(m)的ε闭包叫做s(j)
看看s(j)是不是个新的状态集,如果已经有这个状态集了,把它找出来
否则把s(j)加入全集S和待处理栈
建立s(i)到s(j)的连线转换条件是c
```
运行NFA2DFA()方法然后打印输出生成的DFA。画成图你就能很直观地看出迁移的路径了
![](https://static001.geekbang.org/resource/image/b3/ea/b31b50f7b527de9915b81cb7a117c2ea.jpg)
从初始状态开始如果输入是i那就走int识别这条线也就是按照19、21、22这条线依次迁移如果中间发现不符合int模式就跳转到20也就是标识符状态。
注意在上面的DFA中只要包含接受状态1的都是DFA的接受状态。进一步区分的话22是int关键字的接受状态因为它包含了int关键字原来的接受状态7。同理17是数字字面量的接受状态18、19、20、21都是标识符的接受状态。
而且你会发现算法生成的DFA跟手工构造DFA是很接近的我们在第二讲手工构造了DFA识别int关键字和标识符比本节课少识别一个数字字面量
![](https://static001.geekbang.org/resource/image/11/3c/11cf7add8fb07db41f4eb067db4ac13c.jpg)
不过光看对int关键字和标识符的识别我们算法生成的DFA和手工构造的DFA非常相似手工构造的相当于把18和20两个状态合并了所以这个算法是非常有效的你可以运行一下示例程序Regex.java中的matchWithDFA()的方法,看看效果:
```
private static boolean matchWithDFA(DFAState state, char[] chars, int index){
System.out.println("trying DFAState : " + state.name + ", index =" + index);
//根据字符,找到下一个状态
DFAState nextState = null;
for (Transition transition : state.transitions()){
if (transition.match(chars[index])){
nextState = (DFAState)state.getState(transition);
break;
}
}
if (nextState != null){
//继续匹配字符串
if (index < chars.length-1){
return matchWithDFA(nextState,chars, index + 1);
}
else{
//字符串已经匹配完毕
//看看是否到达了接受状态
if(state.isAcceptable()){
return true;
}
else{
return false;
}
}
}
else{
return false;
}
}
```
运行时会打印输出匹配过程,而执行过程中不产生任何回溯。
现在我们可以自动生成DFA了可以根据DFA做更高效的计算。不过有利就有弊DFA也存在一些缺点。比如DFA可能有很多个状态。
假设原来NFA的状态有n个那么把它们组合成不同的集合可能的集合总数是2的n次方个。针对我们示例的NFA它有13个状态所以最坏的情况下形成的DFA可能有2的13次方也就是8192个状态会占据更多的内存空间。而且生成这个DFA本身也需要消耗一定的计算时间。
当然了这种最坏的状态很少发生我们示例的NFA生成DFA后只有7个状态。
## 课程小结
本节课,我带你实现了一个正则表达式工具,或者说根据正则表达式自动做了词法分析,它们的主要原理是相同的。
首先我们需要解析正则表达式形成计算机内部的数据结构然后要把这个正则表达式生成NFA。我们可以基于NFA进行字符串的匹配或者把NFA转换成DFA再进行字符串匹配。
NFA和DFA有各自的优缺点NFA通常状态数量比较少可以直接用来进行计算但可能会涉及回溯从而性能低下DFA的状态数量可能很大占用更多的空间并且生成DFA本身也需要消耗计算资源。所以我们根据实际需求选择采用NFA还是DFA就可以了。
不过一般来说正则表达式工具可以直接基于NFA。而词法分析器如Lex则是基于DFA。原因很简单因为在生成词法分析工具时只需要计算一次DFA就可以基于这个DFA做很多次词法分析。
## 一课一思
本节课我们实现了一个简单的正则表达式工具。在你的日常编程任务中,有哪些需要进行正则处理的需求?用传统的正则表达式工具有没有性能问题?你有没有办法用本节课讲到的原理来优化这些工作?欢迎在留言区分享你的发现。
最后,感谢你的阅读,如果这篇文章让你有所收获,也欢迎你将它分享给更多的朋友。
本节课的示例代码我放在了文末,供你参考。
* lab/16-18算法篇的示例代码[码云](https://gitee.com/richard-gong/PlayWithCompiler/tree/master/lab/16-18) [GitHub](https://github.com/RichardGong/PlayWithCompiler/tree/master/lab/16-18)
* Regex.java正则表达式有关的算法[码云](https://gitee.com/richard-gong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Regex.java) [GitHub](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Regex.java)
* Lexer.java基于正则文法自动做词法解析[码云](https://gitee.com/richard-gong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Lexer.java) [GitHub](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/Lexer.java)
* GrammarNode.java用于表达正则文法[码云](https://gitee.com/richard-gong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/GrammarNode.java) [GitHub](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/GrammarNode.java)
* State.java自动机的状态[码云](https://gitee.com/richard-gong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/State.java) [GitHub](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/State.java)
* DFAState.javaDFA的状态[码云](https://gitee.com/richard-gong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/DFAState.java) [GitHub](https://github.com/RichardGong/PlayWithCompiler/blob/master/lab/16-18/src/main/java/play/parser/DFAState.java)