正则表达式的DFA算法.docx

上传人：小飞机

文档编号：3602787

上传时间：2023-03-14

格式：DOCX

页数：32

大小：47.26KB

《正则表达式的DFA算法.docx》由会员分享，可在线阅读，更多相关《正则表达式的DFA算法.docx（32页珍藏版）》请在三一办公上搜索。

1、正则表达式的DFA算法正则表达式 1 正则表达式的定义正则表达式是一种强大的，便捷的，高效的文本处理工具，它可以表示比单字符、字符串集合等更加复杂的搜索模式。下面首先给出正则表达式和它所表达语言的形式化定义。一个正则表达式RE是符号集合 , |, *, (, ) 上的一个字符串，它可以递归定义如下：空字符是正则表达式。任意字符是正则表达式。如果RE1和RE2都是正则表达式，则，和亦是正则表达式。通常可以简写为RE1RE2。符号“”，“*”，“|”称为操作符，可以通过为每个操作符赋予优先级来消除更多的括号。为了方便起见，这里使用了额外的后缀操作符“+”，它的含义是RE+=RERE*。

2、其他所使用的操作符如”?”，字符组，”.”等实际上都可以用上面的方式来表达。下面定义正则表达式所表达的语言。正则表达式RE所表达的语言是上的一个字符串集合。根据RE的结构，可以将它递归的定义如下：如果RE是，则L(RE)=，即空串。如果RE是，则L(RE)=，即包含一个字符的单串。如果RE是这种形式，则L(RE) = L(RE1)。如果RE是这种形式，则L(RE) = L(RE1) L(RE2)，其中W1W2可以看成是字符串集w的集合，其中，w = w1w2并且w1W1，w2W2。操作符表示字符串的连接。如果RE是这种形式，则L(RE) = L(RE1)L(RE2)，是这两种语言的

3、并集，“|”称为并操作符。如果RE是这种形式，则L(RE) = L(RE)* = i 0L(RE)i，其中L0=并且Li = LLi-1，它表示字符串集合是由0个或者多个RE1表达的字符串连接而成。“*“称为星操作符。正则表达式RE的规模是指它所包含的属于字母表的字符的个数，在算法复杂性分析中，它是一个重要的度量。在文本T中搜索正则表达式RE的问题就是找到文本中所有属于语言L(RE)的字串。搜索的方法是首先将正则表达式解析成一颗表达式树，然后将表达式树转换成非确定性有限自动机。直接使用NFA进行搜索是可行的，然而NFA算法处理速度通常比较慢，一般的，搜索过程最坏情况时间复杂度是O(mn)

4、，但是所需存储空间并不多。另外一种策略是将NFA转变成确定性有限自动机，它的搜索时间是O(n)，但是构造这样的一个自动机所需的最坏情况时间和空间复杂度都是O(2m)。 2 构造解析树通常来说，解析树并不是唯一的。在解析树中，每个叶节点都是使用中的一个字符来标识的，而每个中间节点则使用操作符集合|, , *中的一个进行标识。一种可能的解析树使用二叉树来表示，二叉树的父节点是一个操作符，两个子节点表示这个操作符作用的两个子表达式。如正则表达式(AT|GA)(AG|AAA)*)的解析树可以表示如下： |*|AAATGGAAA。程序中使用这个二叉树的后序遍历序列来存储这个解析树，那么上面那个正则

5、表达式的存储序列如下： A T G A | A G A A A | * 。函数re2post就是将输入的正则表达式字符串转换成解析树的后序遍历序列。解析过程中有两个重要的变量，natom和nalt，natom表示解析到这个字符为止，已经有多少个原子结构，而nalt表示解析到这个字符为止，已经有多少个分支结构。正则表达式中的括号表示一个子表达式，这个子表达式对于括号外面的表达式来说是一个原子结构，它内部的natom和nalt的值和外部的表达式的这些值没有关系。为了正确的处理这种括号及其嵌套，程序中使用堆栈来辅助解析，每当碰见“时，则根据当前的natom和nalt值进行后续处理，然后从栈中弹出上

6、一层的natom和nalt。具体的处理算法如下： Parse( p = p1p2pm, last) v = 0； While plast $ Do If plast Then If (natom 1) Then -natom; v v+.; EndIf v v + plast; natom+; Else If = | v v + (natom-1). nalt+; Else If = * or + or ? v v + plast; Else If = ( If (natom 1) Then -natom; v v+.; EndIf push(natom, nalt); nalt 0; nat

7、om 0; Else If = ) v v + (natom-1). v v + nalt| pop(natom, nalt); natom+; EndIf Endwhile v v + (natom-1). v v + nalt| Return v; 3 构造NFA 有多种方式用来从正则表达式构造NFA，最常见的两种，也是实践中经常使用的是Thompson构造法和Glushkov构造法。Thompson方法简单，并且构造的NFA中状态数量和转移数量都是线性的。这种自动机存在-转移，即空转移。 Thompson自动机 Thompson自动机构造的核心思想是先形成正则表达式RE对应的树表示Tre

8、，然后自底向上地对树的每个节点v，构造一个自动机Th(v)来识别以v为根的子树所表达的语言。根据不同类型的中间节点和叶节点，有不同的自动机构造方法，具体情况如下。空字的构造方法。自动机由连接两个节点而组成单字符的构造方法，与空字类似，只不过转移是使用字符来标识，而不是使用空字符串。相连节点的构造法。将两个子节点vl和vr对应的Thompson自动机合并，即第一个自动机的终止状态成为第二个自动机的初始状态。 IFIFIvlvrF联合节点的构造法。对于联合节点，则必须通过子节点对应的自动机Th(vl)和Th(vr)中的一个。这时需要-转移。构造过程中，必须添加两个新的状态：一个是初始状态I，

9、从它有两个-转移分别到自动机Th(vl)和Th(vr)的初始状态；另一个是终止状态F，从自动机Th(vl)和Th(vr)的终止状态分别由-转移到达终止状态F。它表达的语言是REvl|REvr。 vlIFvr星节点的构造方法，它使用了同联合节点构造方法相同的思想。首先，因为对于语言REv*，节点v的唯一子节点v*可以被重复任意多次，所以需要创建一个从自动机Th(v*)的终止状态指向其初始状态的-转移。但是星符号也意味着自动机Th(v*)可以被忽略。因此需要创建初始节点I和终止节点F，并用一个-转移把它们连接起来。另外，再创建两条-转移分别用来从节点I指向Th(v*)的初始状态以及从Th(v*)的

10、终止状态指向F。最终，自动机识别的语言是(REv*)* 。 v*IF整个Thompson算法包含自底向上的树的遍历，同时保证根节点开始构造的自动机即为能够表示整个正则表达式的Thompson自动机。在构造树表示中的每一个节点时，自动机中相应地最多增加2个状态和4个转移。因此，构造完成后，状态与转移的数量最多为2m和4m个。下面图表示了正则表达式(AT|GA)(AG|AAA)*)的构造过程。 IATFFIGAFATIGAAGFIFIAAAFAGIAAAGAAAAIF89A10G111601A2T3712A13A14A15174G5A6Thompson算法由函数post2nfa实现。post2n

11、fa函数输入一个数组表示的解析树，返回Thompson自动机，它使用了下面两种数据结构。 typedef struct _state int c; 表示状态的特性，小于256时，表示此状态输入c将转移到out指向的状态 struct _state *out; 下一个状态 struct _state *out1; c是Split时，指向下一个分支状态 int lastlist; int stateid; 状态编号 State; typedef union _ptrlist union _ptrlist *next; State *s; Ptrlist; typedef struct _frag

12、State *start; Ptrlist *out; Frag; Frag结构是一个部分NFA，start指向NFA的开始状态，out指向一系列位置，这些位置需要被设置成这个部分NFA的下一个状态。函数中使用了一个Frag的栈来保存NFA的片段。 stackp = stack; for(p=postfix; *p; p+) switch(*p) default: 单字符的构造 /* 生成一个新的状态s */ 中 */ s = state(g, *p, NULL, NULL); /* 生成一个新的Frag，用s作为start状态，它的out作为终止状态，压入栈 push(frag(s, lis

13、t1(&s-out); break; case .+256: 相连节点的构造 e2 = pop; e1 = pop; /* 连接两个相邻Frag，第一个的out指向第二个的start状态 */ patch(e1.out, e2.start); /* 生成一个新的Frag，用e1的start状态作为start状态，e2的out作为终止状态，压入栈中 */ push(frag(e1.start, e2.out); break; case |+256: 联合节点的构造 e2 = pop; e1 = pop; /* 生成一个新的Split状态s，指向e1和e2的start状态*/ s = state(

14、g, Split, e1.start, e2.start); /* 生成一个新的Frag，用Split的start状态作为start状态，终止状态为e1和e2的终止状态的连接，压入栈中 */ push(frag(s, append(e1.out, e2.out); break; case ?+256: 问号节点的构造 e = pop; /* 生成一个新的Split状态s，指向e的start状态和-转移*/ s = state(g, Split, e.start, NULL); /* 生成一个新的Frag，用Split的start状态作为start状态，终止状态为e和s的终 push(frag(

15、s, append(e.out, list1(&s-out1); break; case *+256: 星节点的构造 e = pop; /* 生成一个新的Split状态s，指向e1的start状态和-转移*/ s = state(g, Split, e.start, NULL); /* e的下一个状态回指s */ patch(e.out, s); /* 生成一个新的Frag，用Split的start状态作为start状态，终止状态为s的止状态的连接，压入栈中 */ 终止状态，压入栈中 */ push(frag(s, list1(&s-out1); break; case +256: 加号节点的

16、构造 e = pop; /* 生成一个新的Split状态s，开始状态为e1的start状态和终止状态为-转移*/ s = state(g, Split, e.start, NULL); patch(e.out, s); /* 生成一个新的Frag，用e的start状态作为start状态，终止状态为s的终止push(frag(e.start, list1(&s-out1); break; 状态，压入栈中 */ 下面是正则表达式(AT|GA)(AG|AAA)*)的NFA。图中阴影的状态是Split状态。 G40A1T112G105A6A3A127A8A94 DFA构造 DFA算法的核心思想是，当使

17、用NFA遍历文本时，会经过很多转移，因此会激活一个状态集合。然而，DFA在一个时刻只有一个确定的活动状态，因此可以在NFA的状态集合上定义相对应的DFA。该思想的关键在于，确定性自动机的当前唯一状态就是NFA的当前活动状态集合。在NFA中，E(s)表示状态s对应的闭包，它是在NFA中状态s能够通过-转移到达的所有状态的集合。假设NFA为，那么DFA定义为：其中，并且。上述定义中的(S, )表示：对于S中所有可能的活动状态s，可以通过标记为字符的转移找到所有可能的状态s，然后再从跟随所有可能的-转移寻找其他状态。算法中DFA状态使用数据结构 typedef struct _dState

18、 List l; 指向一个数组，数组中是这个DFA状态对应的NFA状态的集合 struct _dState *next256;转移表 struct _dState *left; struct _dState *right; int id; 状态id int flags; DState; Dstate是用二叉树的形式组织起来的，以l作为关键字。算法的思想如下： build_dstate For Do If (d, , Null) d = nextstate(d, ) (d, , d) build_dstate(d) End If Endfor nextstate(DState *d, ) For

19、 s d-l Do If s-c = addstate(l, s-out); End If Endfor d= dstate(l) 根据l生成一个Dstate Return d 将s状态上能够通过-转移到达的状态放入l中，实际上就是s的闭包 addstate(List *l, State *s) If(s-c = Split) s状态具有-转移 addstate(l, s-out); addstate(l, s-out1); Return l; EndIf l l s Return l; 下面是正则表达式(AT|GA)(AG|AAA)*)的DFA，加入了初始自环，即.*(AT|GA)(AG|A

20、AA)*). A1AGTG6ATA5GTG9AT0GTG10A2GAG3ATAGTA4G7A8上图中，黑色的箭头表示输入A后状态的转移，黄色的箭头表示输入G，紫色的箭头表示输入T后状态的转移，红色的箭头表示其余的输入表示的状态转移，有两个圈的状态表示终止状态。使用DFA进行搜索十分简单，从状态0开始，依次读入字符，转移到下一个状态，如果这个状态是终止状态，则发现一个匹配，否则继续读入字符，直到读完为止。 5 Glushkov自动机 Glushkov自动机通过只对字符计数，可以标记出字符表中每个字符在正则表达式RE中的位置。例如，(AT|GA)(AG|AAA)*)标记为(A1T2|G3A4)(

21、A5G6|A7A8A9)*)。我们使用表示对正则表达式RE进行标记的标记表达式，使用L表示它对应的语言，其中每个字符都包含它的位置的索引。于是，上面的例子正则表达式的语言为 A1T2，G3A4，A1T2A5G6，。用Pos(首先，在标记表达式) = 1m表示中位置的集合，用表示标记后的字母表。上构造自动机，这个自动机识别语言L。然后，通过消除所有字符的位置索引，可以从中抽取Glushkov自动机，从而识别语言L(RE)。字符位置的集合，加上一个初始状态0，可以当做自动机状态集合的索引。创建m+1个状态，标记为0到m。状态j表示已经从文本中读取了一个字符串，该字符串在NFA中的位置j结束。当

22、再读入一个新的字符时，需要知道从位置j通过可以到达的位置。这个位置可以通过Glushkov自动机计算出来。为了说明Glushkov算法，下面首先引入四个新的定义。其中，y表示引字符。中y处的被索集合First表示L的初始状态集合，也就是说，在这些位置可以开始读入字符。上面的例子中，First(A1T2|G3A4)(A5G6|A7A8A9)*)=1，3。集合Last表示的终止状态集合，也就是说，在这些位置可以识别出L(RE)中的字符串。上面的例子中，Last(A1T2|G3A4)(A5G6|A7A8A9)*)=2, 4, 6, 9。集合Follow表示在Pos中从x可以到达的所有位置。

23、上面的例子中，从位置6可以到达的位置集合为Follow(A1T2|G3A4)(A5G6|A7A8A9)*), 6)=7, 5。函数EmptyRE可以递归的定义如下：当属于L(RE)时，它的值为；否则它的值为。确定的Glushkov自动机可以识别语言L，它可以通过下面的方法进行构造：其中， S = 0, 1, , m是状态集合，它是位置Pos()的集合，初始状态为 I = 0。 F = Last(EmptyRE 0)是终止状态集合。通常，如果状态i属于Pos，则i是一个终止状态。当空字属于L时，初始状态0也是终止状态。这时，EmptyRE = ，则EmptyRE 0= 0；否则Empty

24、RE 0= 是自动机的转移函数，定义为： (5.1) 通常情况下，如果状态y在状态x之后，那么从x到y有一个转移y。从初始状态开始的转移定义为：图给出了标记正则表达式对应的Glushkov自动机。 (5.2) 为了获得原始的RE的Glushkov，只要简单地去掉标记自动机的位置索引即可。在这个过程中，自动机通常会变成非确定的。新的自动机对应语言L(RE)。例子(A1T2|G3A4)(A5G6|A7A8A9)*)对应的Glushkov自动机如所示。 Glushkov算法基于正则表达式RE对应的树表示TRE。树中的每个节点v都代表RE的子表达式REv。算法中使用了下列与v相关的变量： First

25、(v)：表示集合中所有位置的列表。 Last(v)：表示集合中所有位置的列表。 Emptyv：如果中包含空串，它为True，否则为False。对于每个节点，这些变量都是后序计算的，也就是说，先计算出v的所有子节点的变量值，然后再计算v的变量值。如果v是”|”或者”.”，则把它的两个子节点分别记做vl和vr；如果v表示”*”，则把它唯一的子节点记做v*。集合Follow(x)是一个全局变量，对于每一个节点v，Follow(x)的值要根据它在子表达式中位置的变化而不断更新。 Glushkov_variables(vRE, lpos) If v = | (vl,vr) OR v = (vl,vr

26、) Then lpos Glushkov_variables (vl,lpos) lpos Glushkov_variables (vr,lpos) Else If v = * (v*) Then lpos Glushkov_variables (v*,lpos) End of If If v= () Then First(v) ，Last(v) , Emptyv Then If v = ()， Then lpos lpos + 1 First(v) lpos, Last(v) lpos, Emptyv , Follow(lpos) Then If v = | (vl,vr) Then Fir

27、st(v) First(vl) First(vr) Last (v) Last (vl) Last (vr) Emptyv Emptyvl Emptyvr Then If v = (vl,vr) Then First(v) First(vl) (Emptyvl First(vr) Last (v) (Emptyvr Last (vl) Last (vr) Emptyv Emptyvl Emptyvr For x Last(vl) Do Follow(x) Follow (x) First(vr) Then If v = * (v*) Then First(v) First(v*), Last(

28、v) Last(v*), Emptyv For x Last(v*) Do Follow(x) Follow (x) First(v*) End of If Return lpos Glushkov(RE) vRE Parse(RE,1) m Glushkov_variables(vRE, 0) = For i 0m Do create state i For x First(vRE) Do(0, x, x) For i 0m Do For x Follow(i) Do(i, x, x) End of for For x Last(vRE) (Empty vRE 0) Do mark x as

29、 terminal 上面给出了Glushkov_variables(vRE,lpos)的递归算法。对于正则表达式RE的树表示中的每个节点v，该算法提供计算变量First(v)，Last(v)，Follow(x)和Emptyv的方法。为了计算每个节点vRE的值，该算法使用后续遍历树中所有的节点。整个Glushkov算法包括：将RE转化成树vRE，并且使用Glushkov_variables(vRE,0)计算它对应的变量，然后从树vRE的根对应的变量开始构造Glushkov自动机。 6 Glushkov自动机的位并行算法存储DFA状态的一种可行方法就是使用O(m)位的位掩码。其中，如果NFA的

30、第i个状态属于DFA，那么位掩码的第i位就为1。 NFA可以表示如下：，运算）。使用位掩码的Glushkov_variables算法如下所示：， Glushkov自动机的NFA是-free的证明：由公式(5.1)，标记正则表达式的转移函数为，即当前为x状态，输入y，转移到状态y。注意y是正则表达式第y个字符和y的组合，显然不为空。转换后的正则表达式只是去掉位置索引，因此转移函数中y为正则表达式第y个字符，也是不为空的。故自动机的NFA是-free的。所有指向状态y的箭头都标记着同样的字符证明：同样，根据转移函数，到达状态y的输入是y，显然是同一个字符。假设B()为包含字符的位置的

31、集合，则有： (6.1) 证明：设y(x, )。这意味着y能够从x位置输入到达，因此。相反，假设，那么表明可以从x位置转移到y，并且输入也能到达y。根据性质，到达y的所有箭头都标记为，显然也包括离开x的，因此y(x, )。不会有任何箭头到达Glushkov自动机的NFA中的0状态证明：所有的箭头都是根据公式(5.1)生成的，并且根据Follow函数的定义，0状态不在任何其他状态的Follow状态集合中。下面我们使用性质来获得DFA的表示。计算DFA的转移表可以通过两个表来进行，一个是B，给出了每个字符可达到状态的位掩码。第二个是Follow的确定性版本，一个从状态的集合到状态的集合的表T

32、，满足： (6.2) 这个表给出了从一个D中的激活状态，不管通过哪个字符，可到达的状态集合。由性质，下式成立： (6.3) 注意，存储：22，需要(m+1)(2)位，而存储T：2需要(m+1)(2m+1+)位，节省了很多的空间。下面给出从Follow计算T的算法： m+1m+1m+1m+12m+1和B：2m+1我们现在给出基于位掩码以及上面构建的搜索算法。首先，用First和Last表示整个正则表达式的对应的变量。从技术的便利上看，可以设置Follow(0)=First。其次，我们增加一个自循环在表达式的开始，以便可以搜索到从任意位置开始的正则表达式的语言。下面给出搜索算法：上面提到，存储

33、T和B需要(m+1)(2m+1+)位。但是在经典的DFA算法中，只需要存储能够达到的状态，这个状态远小于2m+1所有可能的状态。这里也可以使用类似的算法，只计算可以到达的T。下面的算法给出了递归构建T的过程，从D = 01开始，假定T已经初始化为0，B，Follow和m已经计算出来了。 m7 位并行Glushkov算法的实现 7.1 位掩码我们使用位掩码来表示集合。位掩码实际上是内存中一块连续的内存，内存地址低的是位掩码的低位。程序中提供了一系列对位掩码的操作函数和宏。如下所示： static BITMAP* makebitmap( unsigned numbytes,unsigned nu

34、m )；生成num个位掩码，每个占用numbytes个字节，返回指向位掩码的指针； void free_bitmap(BITMAP* map) 释放位掩码的空间； SETBIT(c,map,val) 宏，设置位掩码map的第c位的值为val； TESTBIT(c,map) 宏，位掩码map的第c位是否为1？； BITCOPY(size,D,S) 宏，拷贝位掩码，DS，size个字节； TRAVEL_BITMAP_BEGIN(size,map,i) TRAVEL_BITMAP_END 遍历位掩码map中所有为1的位； int compare_bitmap(int numbytes, BITMA

35、P *A, BITMAP* B) 比较位掩码A和B的大小，从最高字节开始，逐个字节比较，每个字节看成无符号数； void bitmap_AND(int numbytes, BITMAP *C, BITMAP* A, BITMAP* B) 位掩码与运算，C=A&B； void bitmap_OR(int numbytes, BITMAP *C, BITMAP* A, BITMAP* B) 位掩码或运算，C=A | B； int is_bitmap_empty(unsigned char* map, unsigned numbytes) 位掩码map是否为0，是，返回1，否则返回0； 7.2 Ha

36、sh表程序中T表是用位掩码来索引的，如果位数较多的话，直接通过位掩码找到对应的T的表项很麻烦。这里使用Hash函数将位掩码换算成一个无符号整数。对于T表，使用一个hash表来保存。每个位掩码换算成整数后，再hash成Key值，在表中查询。对于两个一样的Key，使用链表将它们穿在一个Key下面。Hash表的结构如下： typedef struct hash_key_node struct hash_key_node* next; unsigned int value; unsigned int key; BITMAP* D; BITMAP* T; hash_key_node; typedef

37、struct hash_node struct hash_key_node* head; unsigned int value; /这个key下面有几个节点 hash_node; typedef struct hashtable unsigned int bucket_num; hash_node* bucket; hashtable; 每个hash_key_node节点中都存储了D和T，保存D目的是在插入一个相同key时，比较是否D相同。由于在生成T表前不知道有效的T的个数，故hash表的大小是动态变化的。为了不会在一个Key下面挂多个节点，在当前T的表项个数大于2/3的hash表的buck

38、et数目时，就重新生成一个更大数目的表。 7.3 Glushkov算法的实现程序中实现的Glushkov算法和上面的伪代码算法很相似，这里就不在详述了。 8 一个具体的例子正则表达式为(AT|GA)(AG|AAA)*)，字符串为AAAGATAAGATAGAAAA。 B表如下： BA(0x41):.11 10110011 BG(0x47):.00 01001001 BT(0x54):.00 00000101 T表如下： Hash0 :T.00 00000000 =.00 00000000 Hash6 :T.00 00010011 =.00 10101111 Hash14:T.00 00001

39、001 =.00 00011011 Hash18:T.00 10100011 =.01 01001111 Hash19:T.01 10100011 =.11 01001111 Hash20:T.10 10100011 =.01 11101111 Hash31:T.00 00000001 =.00 00001011 Hash37:T.00 10110011 =.01 11101111 T.00 01001001 =.00 10111011 Hash40:T.00 00000011 =.00 00001111 Hash41:T.01 00000011 =.10 00001111 Hash42:T.

40、10 00000011 =.00 10101111 Hash43:T.11 00000011 =.10 10101111 Hash49:T.00 00000101 =.00 10101011 Final: .10 01010100 从D等于.00 00000001开始： 1. 读入A T.00 00000001 .00 00001011 & BA:.11 10110011 D:.00 00000011 2. 读入A T.00 00000011 .00 00001111 & BA:.11 10110011 D:.00 00000011 3. 读入A T.00 00000011 .00 00001

41、111 & BA:.11 10110011 D:.00 00000011 4. 读入G T.00 00000011 .00 00001111 & BG:.00 01001001 D:.00 00001001 5. 读入A T.00 00001001 .00 00011011 & BA:.11 10110011 D:.00 00010011 Final:.10 01010100 因为D&F 0m+1，所以标记一个成功匹配 6. 读入T T.00 00010011 .00 10101111 & BT:.00 00000101 D:.00 00000101 Final:.10 01010100 因为D&F 0m+1，所以标记一个成功匹配 7. 读入A T.00 00000101 .00 10101011 & BA:.11 10110011 D:.00 10100011 8. 读入A T.00 10100011 .01 01001111 & BA:.11 10110011 D:.01 00000011 9. 读入G T.01 00000011 .10 00001111 & BG:.00 01001001 D:.00 00001001 10. 读入A T.0