句法结构模式识别课件.ppt
《句法结构模式识别课件.ppt》由会员分享,可在线阅读,更多相关《句法结构模式识别课件.ppt(107页珍藏版)》请在三一办公上搜索。
1、第七章句法结构模式识别,形式语言概述 文法推断句法分析自动机理论误差校正句法分析,7-1 形式语言概述一、基本概念1、字母表:与所研究的问题有关的符号集合。例:V1=A,B,C,D,V2=a,b,c,d2、句子(链):由字母表中的符号所组成的有限长度的符号串。3、句子(链)的长度:所包含的符号数目。例:|a3b3c3|=94、语言:由字母表中的符号组成的句子集合,用L表示。例:字母表V=a,bL1=ab,aab,abab 有限语言 L2=anbm|n,m=0,1,2.无限语言5、文法:在一种语言中,构成句子所必须遵循的规则的集合,用G表示。L(G)表示由文法G构成的语言。,6、V*:由字母表V
2、中的符号组成的所有句子的集合,包括空句子在内。例:V*,01,0017、V:不包括空句子在内的句子集合,即VV*()8、VT:终止符,不能再分割的最简基元的集合,用小写字母 表示。VT=a,b,c9、VN:非终止符,由基元组成的子模式和句子的集合。用大 写字母表示。VN=A,B,C VT,VN的关系:VTVN=(空集)VT VN=V(全部字母表)10、产生式(再写规则)P:存在于终止符和非终止符间的关系式。例:,VN,VN,VT.11、文法的数学定义:它是一个四元式,由四个参数构成。G=VN,VT,P,S,二.短语结构文法 1.0型文法(无限制)设文法G=(VN,VT,P,S)VN:非终止符,
3、用大写字母表示 VT:终止符,用小写字符表示 P:产生式 S:起始符产生式P:,其中V+,V*,无任何限制(V+不包括空格,V*包括空格)例:0型文法 G=(VN,VT,P,S)VN=S,A,B VP=a,b,cP:SaAbc AbbA AcBbcc bBBb aBaaA aB(空格),SAabcabAcabBbccaBbbcc bbcc 此文法可以产生:X=anbn+2cn+2 n0 X|n=0=bbcc由0型文法产生的语言称为0型语言。2.1型文法(上下文有关文法)设文法G=(VN,VT,P,S)产生式P:1A212 其中AVN,V+,1,2V*|1A2|12|,或|A|B|由上下文有关文
4、法构成的语言称为上下文有关语言,用L(G1)表示,G1:上下文有关文法,例:G=(VN,VT,P,S)VN=S,B,C VT=a,b,cP:SaSBC CBBC SabC bBbb bCbc cCcc1S21aSBC2,bBbb对于SaSBC 1=,2=,A=S,B=aSBC,并且|S|aSBC|符合1型文法规则对于bBbb 1=b,2=,A=B,B=b,并且|B|b|也符合1型文法规则产生式都符合1型文法的要求,SaSBCaabCBCabbBCCaabbCCaabbcCaabbcc X=a2b2c2 此文法G可产生的语言:L(G)=anbncn|n=1,2.假设基元 语言L(G)可以描述不同
5、的三角型X=abc X=a2b2c2,a,b,c,a,b,c,c,c,b,b,a,a,2.2型文法(上下文无关文法)设文法G=(VN,VT,P,S)产生式P:A 其中AVN(且是单个的非终止符)V+(可以是终止符,非终止符,不能是空格)对产生式的限制比较严格 由上下文无关文法构成的语言称为上下文无关语言。例:文法G=(VN,VT,P,S)VN=S,B,C VT=a,bP:SaB SbA Aa AaS AbAA Bb BbS BaBB,aBabSabaBabab S abbAabba bAbaSbaaBbaab babAbaba例:G=(VN,VT,P,S)VN=S,T,F VT=a,+,*,(
6、,)P:SS+T ST TT*F TF F(S)FaSS+TT+TF+Ta+Ta+T*Fa+F*Fa+a*Fa+a*a,两种方法替换非终止符:最左推导:每次替换都是先从最左边的非终止符开始,例如上边的例子。我们经常采用最左推导。最右推导:每次替换都是先从最右边的非终止符开始,例如:SS+T S+F S+a T+a F+a a+a,3.3型文法(有限状态文法)文法 G=(VN,VT,P,S)产生式P:AaB 或Aa,(对产生式限制最严格)其中A,BVN(且是单个字符),aVT(且是单个字符)由3型文法产生的语言成为3型语言。例:文法G=(S,A,0,1,P,S)P:S0A A0A A1 S0A0
7、0A000A0001 L(G)=0n1|n=1,2.例:构造文法G能产生语言L(G)=x|x=0n 10m|n,m0 解:G=(VN,VT,P,S)VT=(0,1)P:S0B B0B B1S B0 VN=(S,B),四种文法的关系:包含关系:限制不严格的文法必然包含限制严格的文法。,3型,2型,1型,0型,三.图象描述语言(PDL)1970年,Show提出图像描述语言任何图象都可用头尾来表示 定义了四种二元连接算子 1.a+b 2.a x b 3.a b 4.a*b,t,h,a头与b尾相连,h,h,t,a尾与b尾相连,形成两个头,h,t,t,a头与b头相连,形成一头二尾,a头连b头,a尾连b尾
8、,形成一头一尾,h,h,t,t,h,t,基元b,a,b,a,b,a,b,头,头,尾,尾,一元算子一个基元的头或尾可以与另一基元的头或尾相连而成为模式串,并可设置一些较复杂的联结关系和进行各种运算。例:文法G=(VN,VT,P,S)VT=,(),+,-,x,*,VN=S,A,B,C P:SA SB A(b+(C+c)B(d+(a+(d)*C),C(b+c)*a),h,t,b,h,t,b,a,b,c,d,L(G)=(b+(b+c)*a)+c);(d+(a+(d)*(b+c)*a),b,c,a,a,d,d,b,b,c,c,a,C,B,S,d,b,+,导出过程,d,a,+,+,c,*,a,S,A,b,
9、+,c,+,C,b,+,c,*,a,求表达式的规则:脱括号由内往外的次序进行,无括号由左向右进行 对于连接基元组成基元结构,必须符合规定的连接 点头,尾数目例:给出一个PDL文法G=(S,A,B,C,D,E,a,b,d,(,),+,*,P,S)P:S(A+(B)B(C)+D D b E(a+b)A d C E*c D(d)A a,c,可以导出手写大写字符“A”的四种表达式 S(A+(B)(a+(B)(a+(C)+D)(a+(E*c)+D)(a+(a+b)*c)+D)(a+(a+b)*c)+(d)(d+(a+b)*c)+b),(a+(a+b)*c)+b),(d+(a+b)*c)+(d),a,d,
10、b,b,a,a,b,b,b,a,d,d,c,d,a,a,b,c,四.标准形式文法在句法分析和自动机的一些算法中,有时要求标准化文法,下面介绍二种标准文法。1.乔姆斯基(Chomsky)范式,一种上下文无关文法如果它的每个 产生式P都符合二种形式:ABC(A,B,CVN)或Aa(AVN,aVT)该文法称Chomsky范式 已知上下文无关文法 G=(VN,VT,P,S)用以下步骤产生Chomsky范式的等价文法 G=(VN,VT,S)若中已经是ABC,Aa形式放入 中中其它的产生式形式为A 12.n 其中iVN或 iVT,用下面的产生式集合代替:AY1Y2.n Y2.nY2Y3.n Yn-1.nY
11、n,n-1 YiVN若i VN,则令Yi=i;若i VT,再引入Yii,例:把文法G=(VN,VT,P,S)变成Chomsky范式 VN=S,A,B VP=a,bP:SAB,Aa,AabABa,Bb 把SAB,Aa,Bb放入 中AabABa,A12345,其中1=5=a,2=b,3=A,4=BAY1Y2345,Y2345Y2Y345,Y345Y3Y45,Y45Y4Y5,3,4VN Y345AY45,Y45BY5,125VT引入新的产生式,Y1a,Y2b,Y5a,符合chomsky范式文法,文法G2=(VN,VT,S)VN=Y1Y2345,Y2Y345,Y45,Y5,S,A,B AY1Y2345
12、,Y1a,Y2345Y2Y345,Y2b,Y345AY45,Y45BY5,Y5a,SBA,Aa,Bb若x=bababa用G1导出:SBAbAbabABabababa,用G2导出:SBAb Y1Y2345.baY2345 baY2Y345 babY345 babAY45 babaY5 bababY5 bababa用原文法G1 只用四步可以导出bababa而用标准文法G2则用九步才导出,2.格雷巴赫范式(Greibach)若一个上下文无关文法具有P形式:Aa,AVN,aVT,VN*(带空格)则此文法称为Greibach范式。例:上下文无关文法 G=(VN,VT,P,S)VN=S,C,VT=a,b,
13、cP形式:SaCbb,CaCbb Cc变成Greibach范式:Cc即Cc符合Greibach范式,不变SaCbb,用SaCBB,Bb代替CaCbb,用CaCBB,Bb代替符合Greibach范式:P:SaCBB,CaCBB,Cc,Bb,五.高维文法:上面我们介绍的都是一维链(串)文法,为了描述更复杂的图形、图象,需要用高维文法,包括树文法,图文法,网文法等等。1.树文法:定义:四元组 Gt=(v,r,P,S)其中V=VNVT,r:秩(一个节点的直接分支数)P形式:TiTj Ti,Tj都是树由Gt产生的语言叫树语言。L(Gt)=T|TT,TiT TiS,T是带有VT中结点的树集合 扩展树文法:
14、全部产生式形式 其中x1,x2.xnVN,xVT,nr(x)具有上面产生式形式的树文法称扩展的树文法。,Gt,X,x,x1,x2 xn,例:Gt=(v,r,P,S)V=VNVT(S,A,B,K,a,b)VT(,),r(a)=(2,0),r(b)=(2,0),r(k)=2P:SK Aa Bb Aa Bb SK,a,b,A,B,A,B,A,B,A,B,a,b,a,b,k,A,B,SK,a,b,A,B,A,B,a,b,k,导出树,导出图,b,b,a,a,例2:在氢云室内用正粒子打击核目标碰撞发出的射线可以用 树文法来描述。树文法Gt=(v,r,P,S),VN(S,A,B),VT(a,b)基本定义:P
15、:,a,b,(凸弧),(凹弧),S,a,|,S,S,a,A,B,S,a,A,B,B,A,S,a,A,B,B,A,A,B,A,a,|,A,A,a,B,a,|,B,B,a,r(a)=(0,1,2,4,6),r(b)=(0,1)射线导出树:,S,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,b,b,b,b,b,b,b,b,b,b,b,b,b,a,a,b,射线图:,7-2 文法推断根据已知L(G)样本集导出未知文法G的过程。(一)基本定义:1.若在产生式中至少有一个产生式存在以下形式:AiiAii 此文法G=(VN,VT,P,S)是循环文法或不确定,由它产生的语言L(Gt
16、)为无限的。2.若文法G为不循环的,则必为确定的,且L(G)为有限的。,样本集,推断算法,Gt,St=(x1,x2 xt),导师,3.当L(GA)=L(GB)时,则GA与GB等效,等价。例:有限状态文法GA=(VN,VT,P,S),VN=S,VT=0,1P:S0S,S1 则L(GA)=0n1|n=1,2,上下文无关文法GB=(VN,VT,P,S),VN=S,A,VT=0,1P:SA1,AAA,A0 则L(GB)=0n1|n=1,2,L(GA)=L(GB)GA与GB等效4.S+是L(G)的子集,即S+L(G),称为正取样,是 子集,记为 称为负取样,5.若正取样S+=(x1,x2.xi)=L(G
17、),称为S+是完备的,负取样=(x1,x2.xi)=,称 也是完备的,且St=(S+,S-)=(x1,x2.xi)=(L(G),)也是完备的。,(二)有限状态文法推断状态图表示方法,文法可以用图来表示例:G=(VN,VT,P,S)VN=S,A,B,C VT=0,1P:S0A A0A B0 B0B S1B A1B C0C S1C A1 C1T:附加状态此文法可以产生的字符串 x1=00n1,x2=0n+110m+1,x3=10n+1,x4=10n1,A,S,C,B,T,0,0,0,0,1,1,1,1,1,0,一.规范确定文法已知正取样S+=(x1,x2.xn)推断规范文法Gc=(VN,VT,PL
18、,S)的步骤如下:VT=S+中不同的终止符 设xi=ai1ai2.ain链PL:Sai1Zi1 Zi1VN,ai1VT Zi1ai2Zi2 Zi2VN,ai2VT ZIn-2ain-1Zi n-1 Zin-1VN,ain-1VT ZIn-1ain ainVTVN=S,Zi1,Zi2,.Zin-1,此文法产生的语言是确定的,有限的,且有性质:L(GL)=S+,例:已知S+=(01,100,111,0010)VT=0,1x1=01,S0Z1,Z11 x2=100,S1Z2,Z20Z3,Z30 x3=111,S1Z4,Z41Z5,Z51 x4=0010,S0Z6,Z60Z7,Z71Z8,Z80VN=
19、S,Z1,Z2,.Z8 推断出的文法为:Gc=(VN,VT,Pc,S)VN=S,Z1,Z2,.Z8,VT=0,1PL:S0Z1,Z11,S1Z2,Z20Z3,Z30,S1Z4 Z41Z5,Z51,S0Z6,Z60Z7,Z71Z8,Z80,状态图:显然对任一有限取样都可用此法推断出规范文法,方法简单,适用计算机运算。缺点是非终止符太多,产生式也多。,S,Z1,Z2,Z3,Z4,Z5,Z6,Z7,Z8,T,0,0,0,0,0,0,1,1,1,1,1,1,二.导出文法(简化规范文法)设:Gc为规范文法,非终止符集合VN=S,Z1,Z2,.Zn,把VN分成r个子集:VND=Bj,B1,B2.Br SB
20、j,ZiBj这些子集满足:BjBk=,jk Bj=VN 定义导出文法GD=(VND,VT,PD,Bs)是由规范文法Gc产生的文法,导出规则如下:VT相同 VND=(Bs,B1,B2,Br)Bs为起始符,Bs=S PD定义:a.若ZZ在Pc中,则PD中有 BiBj,ZaBi,ZBj b.若Za在Pc中,则PD中有Bia,ZaBi,r,j=s,例:S+=(01,100,111,0010)规范文法Gc=(VNC,VT,Pc,S)VNC=S,Z1,Z2,Z8对VNC分割为:VND=(S),(Z1,Z6,Z7),(Z2,Z3,Z8),(Z4,Z5)=Bs,B1,B2,B3对于S0Z1 SBS,Z1 B1
21、 PD中有BS0B1对于Z11 Z1 B1 PD中有B11同理:BS1B2,B20B2,B20,BS1B3,B31B3,B31 BS0B1,B10B1,B11B2,B20把相同的产生式合并后有:Pc:BS0B1,BS1B2,BS1Bs,B11,B10B1,B11B2,B20B2,B20,B31B3,B31,状态图导出文法等效规范文法 L(GC)=L(GD)这种方法由于分割方式不同会导出不同的文法而分割方式又无系统理论作指导,而靠经验和试探。,B5,B3,B2,B1,T,0,0,1,1,1,1,1,1,0,0,三.形式微商文法形式微商定义:集合A对于符号aVT的形式微商是:DaA=X|axA 若
22、a=(空串),则DA=A例:A=S+=01,100,111,0010 则D0A=D0S+=1,010 D1A=D1S+=00,11扩展:二次微商Da1a2A=Da2(Da1A)n次微商:Da1a2an1anA=Dan(Da1a2an1)A对上例:D00 S+=D0(D0 S+)=D0(1.010)=(10)D11 S+=(1)D000 S+=,D100 S+=,已知正取样S+=x1,x2,.xnT 形式微商文法GCD=(VN,VT,P,S),定义如下:VT=(S中不同的符号)VN=U=(U1,U2,UP)其中Ui(i=1,2p)是S+的形式微商,且令U1=DS 起始符,S=U1=DS 令Ui,
23、UjVNP:当DaUi=Uj,则UiaUj 当DaUi,则Uia,例:S+=101,111,推断形式微商文法如下:VT=(0,1)DS=S=101,111=U1=S 起始符 D1S=01,11=D1S=U2 S1U2 D10S=D0(D1S)=D0U2=1=U3 U20U3 D11S=D1(D1S)=D1U2=1=U3 U21U3 D101S=D1(D10S)=D1U3=U31 D111S-=D1(D11S)=D1U3=U31形式微商文法为(相同产生式合并):GCD=(VN,VT,P,S)VT=(0,1)VN=(S,U2,U3)P:S1U2,U21U3,U20U3,U31状态图为:,S,U2,
24、U3,T,1,1,0.1,四.k-尾文法:对形式微商文法进行长度限制,并对等价状态进行合并k尾定义:(U,A,k)=X|XDaA|X|k形式微商文法中两个状态间的等效性的充要条件为:(XiS+k)=g(XjS+k)-k尾相等利用k尾等效把形式微商文法中的等效状态合并,导出k尾文法。例:S+=01,1001 先求形式微商文法 DS+=S+=01,1001=U1=S D0S+=1=U2 S0U2 D01S+=D1(D0S+)=D1U2=U21 D1S+=001=U3 S1U3 D10S-=01=D0U3=U4 U30U4 D100S+=1=D0U4=U5 U40U5 D1001S+=U51,求k尾
25、等效状态:|X|k k=4,k=3,k=2,k=1U1=DS+=01,1001,01,0,1,U2=D0S+=1,1,1,1 U3=D1S+=001,001,,U4=D10S+=01,01,01,U5=D100S+=1,1,1,1 等效状态为 k=4,k=3,k=2,k=1(U2,U5)(U1,U4)(U1,U4)(U1,U3,U4)(U2,U5)(U2,U5)(U2,U5,)合并状态,导出k尾文法 k=4时 S0U2,U11,S1U3,U30U4,U40U2 k=3,2时 S0U2,U21,S1U3,U30S k=1时 S0U2,U21,S1S,S0S,状态图讨论:推断k尾文法时,k尾的选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 句法 结构 模式识别 课件
链接地址:https://www.31ppt.com/p-3809266.html