中科院《模式识别》——第七章课件.ppt
《中科院《模式识别》——第七章课件.ppt》由会员分享,可在线阅读,更多相关《中科院《模式识别》——第七章课件.ppt(143页珍藏版)》请在三一办公上搜索。
1、第七章 句法模式识别,第七章 句法模式识别,统计模式识别是基于模式特征的一组测量值来组成特征向量,用决策理论划分特征空间的方法进行分类。基于描述模式的结构信息,用形式语言中的规则进行分类,可以更典型地应用于景物图片的分析。因为在这类问题中,所研究的模式通常十分复杂,需要的特征也很多,仅用数值上的特征不足以反映它们的类别。,第七章 句法模式识别,句法模式识别系统的组成图像预处理图像分割基元及其关系识别句法分析,第七章 句法模式识别,句法模式识别系统框图,第七章 句法模式识别,对图像的结构信息描述,第七章 句法模式识别,句法模式识别系统处理过程待识别的输入图像,经过增强、去噪声等处理后,按识别的具
2、体对象分割成子图;三角体D和长方体E然后将子图分割成更简单的模式基元;组成三角体和长方体的各个面L,T和X,Y,Z判别基元之间的关系。三角体D是由相互邻接的四边形L和三角形T组成长方体E是有三个相互邻接的四边形X,Y和Z组成,第七章 句法模式识别,句法模式识别系统处理过程基元本身包含的结构信息已不多,仅需少量特征即可识别。如果用有限个字符代表不同的基元,则由基元按一定结构关系组成的子图或图形可以用一个有序的字符串来代表。假如事先用形式语言的规则从字符串中推断出能生成它的文法,则可以通过句法分析,按给定的句法(文法)来辨识由基元字符组成的句子,从而判别它是否属于由该给定文法所能描述的模式类,达到
3、分类的目的。,第七章 句法模式识别,句法模式识别学习过程为了要事先确定一个文法来描述所要研究模式的结构信息,同样需要采用模式的训练样本集把文法推断出来。有了推断出来的文法,才可以对未知类别的字符串进行句法分析,达到分类的目的。这一过程类似于统计模式识别中的学习过程,但文法推断过程远不及统计学习来的成熟。,7.1 集合论中的关系运算,要进行句法识别中基元之间关系的判别,首先要明确关系运算。“关系”在客观世界中广泛存在社会生活:父子关系,母子关系,兄弟关系,等等;数学运算:大于、等于和小于关系,函数关系,等等。二元关系凡是一对对象之间的关系,都是二元关系。,7.1 集合论中的关系运算,二元关系的相
4、关概念有序偶设用表示一有序偶,它可以代表迪卡儿坐标,例如,等,它们表示平面坐标上的不同点。两个有序偶和相等,定义为迪卡儿积设A和B是任意两个集合,由A中的一个元素和B中的一个元素组成有序偶,那么由A和B中所有元素组成的有序偶集合,称为A和B的迪卡儿积,写成A x B。公式表达:例子,7.1 集合论中的关系运算,二元关系的相关概念二元关系的定义及表示任意有序对的集合定义一种二元关系,简称为关系表示设一有序对 ,其中R是一种关系,则记为xRy例子,7.1 集合论中的关系运算,二元关系的性质定义:自反集合X中的关系R是自反的,只要对X中的每个x,有xRx,则属于R。写法:X中的R是自反的定义:对称集
5、合X中的关系R是对称的,只要对X中的每个x和y,每当xRy时总有yRx。写法: X中的R是对称的例:实数集合中的“=”不是对称的,但“=”关系是对称的。例:全体人的集合中,师生关系不是对称的,但同学关系是对称的。例:平面上三角形集合中的相似关系是自反的和对称的。,7.1 集合论中的关系运算,二元关系的性质定义:传递集合X中的关系R是传递的,只要对X中的每个x, y和z,一旦xRy且yRz,则有xRz。写法:X中的R是传递的例:若a不属于R。例,7.1 集合论中的关系运算,二元关系的性质定义:反对称集合X中的关系R是反对称的,只要对X中的每个x和y,一旦xRy且yRx,则有x=y。写法: X中的
6、R是反对称的例,7.1 集合论中的关系运算,关系图关系可以用图形表示设R为集合X=x, y, z中的一种关系,X中的元素用结点表示,并用相应的元素名称标志。如果xRy,则用带箭头的弧线连接结点x和y。,7.1 集合论中的关系运算,等价关系如果集合X中的关系R是自反的、对称的和传递的,则称它是一个等价关系。实数集合中的数值相等三角形集合中的三角形相似一个班内同学之间的同班关系 等价类定义等价类性质集合X上的等价关系R所构成的类两两不相交,且覆盖了整个集合X。,7.1 集合论中的关系运算,等价关系可以用图形方法分析研究等价划分:由于等价关系是自反的、对称的、传递的,因此由这些性质的图形特点可知:一
7、个集合X上的等价关系R的关系图,其每个结点必有环;若两个结点间有边相连,则必有方向彼此相反的两条有向边;若图中任何两个结点是可达的,则必有边直接相连。例子,7.1 集合论中的关系运算,兼容关系如果X中的关系R是自反的而且是对称的,则称R是一个兼容关系。所有的等价关系是兼容关系;兼容关系不一定是传递的。偏序关系集合P上的二元关系R称为P上的一个偏序关系,当且仅当R是自反的、反对称的和传递的。偏序关系通常用“=”表示,但注意“=”不一定是实数中的“小于或等于”,表示的是更普遍意义上的偏序关系。例子半序集全序或线性序,7.1 集合论中的关系运算,二元关系的复合定义人类的亲属关系是最容易理解的复合关系
8、叔侄关系是兄弟关系和父子关系的复合,可表示为:A”兄弟”B且B”父子”C - A”叔侄”C,7.1 集合论中的关系运算,二元关系的复合关系图,7.1 集合论中的关系运算,二元关系的复合关系的复合运算可以施加于自身表示为:RR =R2,RRR =R3 ,传递闭包例子,7.2 形式语言理论和句法模式识别,形式语言的起源可以追溯到二十世纪五十年代;乔姆斯基(Chomsky)等科学家在研究语言的工作中发展了文法的数学模型;其基本目的是发展一种应用于计算机的文法,使它有描述自然语言的能力,例如英文。如果能做到这一点,则有希望“教”计算机理解自然语言,以达到翻译的目的。,7.2 形式语言理论和句法模式识别
9、,形式语言的基本目的迄今为止尚未完全实现,但在这个领域的研究成果却大大冲击了其它一些领域计算机编译系统的设计计算机语言自动机理论模式识别,7.2 形式语言理论和句法模式识别,在模式识别中,如果大量复杂的模式的集合,能用一组为数不多的简单的模式基元和文法规则来描述,则对每一个模式的识别,就可以按给定的一组文法结构规则来剖析;如果解析的结果表明,模式基元能为给定的文法规则所接受,则可判别它属于该模式类,否则就不属于该模式类。,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义形式语言是一种抽象语言,它可以包括人类使用的自然语言、计算机使用的各种语言、数学中的公式语言等。自然语
10、言(英文):它的基本组成是有限个字母,将字母(组成的单词)按一定的文法规则排列,可以构成句子,而一种语言则是所有句子的集合。人类的自然语言是一个不可数的有穷集英文:26个字母按一定的文法规则组合,可以表达无数的思想内容。,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义字母表和符号串字母表:以某些符号作为元素的非空有穷集,以V或表示。符号串:由字母表中符号组成的任何有穷序列。例子空符号串:不包含任何符号的串,用表示。符号串的长度:符号串x所包含的符号个数,用|x|表示。例子符号串的联接:若x和y都是符号串,则把y符号串写在x符号串之后,就得到联接的符号串xy。例子,7.
11、2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义字母表和符号串符号串集合的乘积例子如果A和B只是代表一个符号串,而不是符号串的集合,则乘积AB与符号串的联接结果相同。符号串和符号串集合A的幂集合A的正闭包、闭包字母表V的幂集合V的正闭包、闭包例子,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义文法一种语言中构成句子所必须遵守的规则;由某种语言的字母表中的字母所组成的串不一定都是该语言的句子;只有当一个串符合该语言的文法规则时,才能算是该语言的句子,否则就不是该语言的句子。,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义文法
12、定义文法举例在生成规则P中,带的符号称为语法元,不带的符号称为单词;一个简单句的生成由语法元()开始,反复把生成规则中箭头左边的部分用其右边的部分替换,直到所得的形式中不再出现语法元而只有单词为止。简单句“The boy runs.”符合给定的文法规则,因为它可以由上述的文法规则产生。生成过程,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义文法举例文法树,7.2 形式语言理论和句法模式识别,7.2.1 形式语言理论中的某些定义利用文法树可以阐明文法的形式化定义:文法树的根一定是文法G的起始符S;树的叶一定是终止符;树的每一个分支(子树)在沿着根到叶的方向上可以表示成一
13、个直接推导的生成式;如果利用文法树的逆过程,则可将生成过程重新构造出来。,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程利用文法G来生成语言的过程中的一些规定非终止符VN用大写英文字母:S, A, B, C, 终止符VT用英文字母表起始部分的小写字母:a, b, c, 终止符组成的字符串用英文字母表中尾部的小写字母:u, v, w, x, 终止符和非终止符混合组成的字符串用希腊字母:, , , , ,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程利用文法G来生成语言的过程中的一些规定生成式P由以下形式的表达式组成:-,其中是V+中的字符串, 是V*中的字符串,“
14、- ”表示字符串被所取代。=表示根据文法G,由一字符串直接推导出另一字符串。例子,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程句型和句子定义句型是由起始符开始进行推导而得到的由字母表中的符号(包括VN 、VT和)组成的任意字符串;句型和句子关系句子一定是由字母表中终止符组成的字符串。,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程语言定义短语定义从起始符推导一个句子的过程,实际上就是将推导过程中句型的一部分不断用短语来取代的过程,这种文法称为短语结构文法。,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程例子从生成规则P中可以看出,只有第二生成式
15、A-aAc中出现了a和c,可见由此生成的字符串中a和c的个数是同样多的,且a和c只能分别地连续出现。如果不用第二生成式A-aAc而用第三生成式A-B时,则只能往下用第四生成式B-bB和第五生成式B-b,这样再也不会出现a和c。因此由P生成的字符串只能是anbmcn的形式。L(G)=anbmcn|m,n=1且仅为整数,7.2 形式语言理论和句法模式识别,7.2.2 语言的生成过程文法G产生语言的描述一个文法G=(VN, VT , P, S)所产生的语言,是由S开始所推导出的所有终止符的集合,它满足两个条件每一个字符串只能由终止符组成,即每一个字符串都是终止符句子;每一个字符串都能从S开始,适当应
16、用P中的生成式来导出。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类文法可定义为一个四元组G=(VN,VT,P,S),乔姆斯基按照文法所允许的生成形式的不同,定义四种文法类型:0型文法:称为无约束文法1型文法:称为上下文有关文法2型文法:称为上下文无关文法3型文法:称为正则文法,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类0型文法(无约束文法)生成式形式说明可以有=,但不能有=;只有0型文法才允许有产生空句的生成式。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类1型文法(上下文有关文法)生成式形式说明在1和2之间的非终止符可以重写为,这里1和2称为句型
17、1A2对于A的上下文;不是在1和2之间的A不能使用此规则。例子从表面上看似乎上下文并不完整;但根据1型文法的定义, 1、2属于V*,可以有1=2 =;因此生成规则P可以改写成例中生成式右侧所示形式。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类2型文法(上下文无关文法)生成式形式说明该文法表明生成式左侧为单变量,可由右侧的字符串来取代,因此是上下文无关的。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类3型文法(正则文法)生成式形式说明该文法表明规则右侧一定要首先含有非终止符。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类四种文法比较正则文法(3型文法)
18、生成规则的右侧若不强调终止符的首先出现,就变成上下文无关文法(2型文法);上下文无关文法(2型文法)生成规则的左侧若不强调单变量,而加以上下文限制,就变成上下文有关文法(1型文法);上下文有关文法(1型文法)去掉上下文的限制,就变成无约束文法(0型文法)。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类四种文法比较包含关系:正则文法 上下文无关文法 上下文有关文法 无约束文法所有正则文法都是上下文无关的;所有上下文无关文法都是上下文有关的;所有上下文有关文法都是无约束的。在句法模式识别中,多采用上下文无关文法和正则文法。,7.2 形式语言理论和句法模式识别,7.2.2 文法的分类例
19、1:无约束文法例2:上下文有关文法例3:上下文无关文法例4:正则文法,作业,写出上下文无关文法,其终止符集VT=a,b能生成语言L(G)=ab,ba,aba,bab,abab,baba,7.3 句法结构的自动机识别,一种类别的模式,可以用一个文法来描述。要识别一个未知的模式,可以先用其基元表征成一个字符串或句子,然后再用该文法进行判断。若能被接受,则说明它是属于该文法所生成的语言,亦即它是属于该类模式,否则就不属于该类模式。自动机就是一种句法识别器,它可以判断一个句子是否属于某种语言,并且自动机的类型与文法的类型有着某种对应关系。,7.3 句法结构的自动机识别,7.3.1 有限态自动机有限态自
20、动机是研究自动系统的一种数学模型,它能模拟多种离散的自动系统。结构概念实例:八进制计数器和有限态自动机模型一个八进制计数器,要求每逢计数到6输出一脉冲。将该装置看成是一个离散系统。,7.3 句法结构的自动机识别,7.3.1 有限态自动机结构概念实例:八进制计数器和有限态自动机组成输入信息:接受顺序输入的计数脉冲作为输入信息,有脉冲时为1,无脉冲时为0,以0,1组成的字符串作为输入。输出信息:当计数器的状态到达6时,输出一脉冲,其余情况均输出为0 ,以0,1组成的字符串作为输出。内部状态:触发器q1、q2和q3所处的0或1的状态。该计数装置是否有脉冲输出,不仅依赖于当前的输入信息,而且还依赖于前
21、一时刻触发器所处的状态亦即该触发器的内部状态。这里三个触发器所处的状态的集合q1, q2, q3属于有限个状态的集合。,7.3 句法结构的自动机识别,7.3.1 有限态自动机结构概念实例:八进制计数器和有限态自动机组成状态转换:设以表示输入0,1的集合,以Q表示内部状态的集合q1, q2 , q3,则状态转换函数可以表示成Q和到Q的映射,写成迪卡儿乘积的形式为:Q x - Q, 称为状态转移函数。内部状态的转换既依赖于输入,也依赖于前一时刻的内部状态。输出函数:在某时刻的输出信息,一般由同一时刻的输入信息和内部状态所决定。它也是内部状态与输入的映射从上述组成可以看出,一个离散的有限状态的自动系
22、统由五部分组成。一个有限态自动机A是模拟多种离散自动系统的一种数学模型。,7.3 句法结构的自动机识别,7.3.1 有限态自动机有限态自动机定义映射的状态图表示:并不是全部可能的输出函数都一定是需要的输出终止状态,只有其中部分输出状态才是感兴趣的输出终止状态。有限态自动机抽象结构示意图,7.3 句法结构的自动机识别,7.3.1 有限态自动机结构示意图描述控制器上记录了各种状态,并且各种状态之间按一定的规则在控制器中变化,而变化的改变是受输入支配的。具体来说,控制器相对于输入磁带自左向右移动,每接受一个输入符号便右移一个单位,并改变一次状态,直至一个句子的全部符号输入结束。同时,每输入一个符号,
23、控制器要根据状态规则来判断能否接受该符号,若所有的符号都能被接受,就说明该句子属于该自动机所能接受的那种语言。此时,状态变换(q,a)=q表示“处于状态q并正在扫描输入符号a”的自动机A,将读入磁头右移一个单元,并转到状态q。自动机输入句子后,若(q,x)=q且q在F中,则称句子x被有限态自动机A所接受。,7.3 句法结构的自动机识别,7.3.1 有限态自动机正规集由有限态自动机A接受的所有句子x的集合表示为: T(A)=x|(q,x)在F中,F是终止状态集。由有限态自动机接受的句子的任何集合,称为正规集。,7.3 句法结构的自动机识别,7.3.1 有限态自动机例子状态图,7.3 句法结构的自
24、动机识别,7.3.2 非确定有限态自动机确定有限态自动机映射关系唯一非确定的有限态自动机它所确定的状态不是唯一的,可以由若干个状态可供选择,亦即是一个状态集。映射关系:(q, x) =p1, p2, , pk自动机A在状态q若输入字母为x,则其转换到下一时刻的状态可以从p1, p2, pk这k个状态中任选一个,这样的一种自动机称为非确定有限态自动机。,7.3 句法结构的自动机识别,7.3.2 非确定有限态自动机形式化定义例子,7.3 句法结构的自动机识别,7.3.2 非确定有限态自动机非确定有限态自动机与确定有限态自动机的关系非确定有限态自动机是确定有限态自动机的推广形式化描述,7.3 句法结
25、构的自动机识别,7.3.2 非确定有限态自动机非确定有限态自动机与确定有限态自动机的关系例子非确定的有限态自动机和确定的有限态自动机统称为有限态自动机,7.3 句法结构的自动机识别,7.3.3 按正则文法构造有限态自动机形式化描述例子,7.3 句法结构的自动机识别,7.3.4 按有限态自动机确定正则文法形式化描述例子,作业,求一有限态自动机,它只能接受由“偶数个a”与/或“偶数个b”组成的任意字符串,例如:aa, bb, abab, abba, baba等。,7.3 句法结构的自动机识别,7.3.5 下推自动机和上下文无关文法上下文无关语言的范式任何上下文无关文法的生成式A-都可以写成乔姆斯基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 中科院 第七 课件
链接地址:https://www.31ppt.com/p-1552404.html