印刷体汉字识别方法的研究毕业设计论文.doc
《印刷体汉字识别方法的研究毕业设计论文.doc》由会员分享,可在线阅读,更多相关《印刷体汉字识别方法的研究毕业设计论文.doc(39页珍藏版)》请在三一办公上搜索。
1、.印刷体汉字识别方法的研究作 者 姓 名 #专 业 电子信息工程 指导教师# 王导专业技术职务 目录摘要1第一章绪论31.1汉字识别研究的意义31.2印刷体汉字识别研究的背景3第二章汉字识别技术42.1汉字识别概述42.2汉字识别的原理42.3汉字识别的一般方法52.4 印刷体汉字识别问题与困难6第三章印刷体汉字识别的研究73.1 印刷体汉字识别技术的开展历程73.2 印刷体汉字识别的原理分析与算法研究83.2.1 预处理93.2.2 汉字特征提取113.2.3 汉字的分类识别133.2.4 后处理153.3印刷体汉字识别技术分析163.3.1结构模式识别方法163.3.2 统计模式识别方法1
2、73.4印刷体汉字识别的分类19第四章系统的实现与仿真194.1系统的实现194.2系统的仿真20第五章总结与展望235.1总结235.2 展望23参考文献25附录26致谢34DOC.摘 要汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先就汉字识别研究的意义与背景作了综述。第二章介绍了汉字识别的根本过程以与印刷体汉字识
3、别研究存在的问题与困难。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;着重分析了统计模式识别方法、 结构模式识别方法以与匹配识别;第四章用Matlab对系统进展了仿真;最后说明了汉字识别技术研究今后开展的方向。关键词:印刷体汉字识别特征提取匹配识别统计模式识别Matlab仿真ABSTRACTChinese character recognition technology is a kind of automatic high-speed, information input method, bee the important functio
4、ns of the puter interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the puter could process Chinese inf
5、ormation more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. Thats what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and background of Chinese
6、character recognition. In chapter 2, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 3, we describe printed Chinese character recognition system in
7、 details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatically analyses the
8、 statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development.Key words:Printed Chinese character recognition;feature
9、 extraction;Matching recognition;Statistical pattern recognition; MatlabSimulation第一章 绪论1.1汉字识别研究的意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题1
10、,也是关系到计算机技术能否在我国真正普与的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入4050个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进展汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最正确的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识
11、别OCROptical CharacterRecognition的重要组成局部2。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的开展给它的研究提供了工具;另一方面,它的研究与开展也必将促进各学科的开展。因而有着重要的实用价值和理论意义。1.2印刷体汉字识别研究的背景印刷体汉字识别是汉字识别研究中的一个重要课题。在以往的研究中,均十分重视印刷体汉字特征点提取的工作。所谓特征点,是指反映汉字形体特征整体分布状况的关键点集,即构成汉字笔划骨架线的端
12、点、折点、交点等。如图1-1所示汉字图像“大:汉字图像“大的特征点。圆圈标出的点为特征点表示图1-1 图像“大特征点通常,对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按照一定的策略和步骤比如汉字的连接笔划、结构匹配等,将汉字形体划归为正确的字类,印刷体汉字识别的正确性就能够得到保证。当前,印刷体汉字特征点的识别效率还有进一步改良的空间。特征点提取方法属于句法结构模式识别方法之一。另一方面,随着数字图像处理技术的开展和实际应用的需求,许多问题不要求其输出结果是一幅完整图像本身,而是将经过特定处理的图像,再分割和描述,提取有效的特征,进而加以判决分类。这种技术就是图像的模式识别。
13、随着数字图像处理和模式识别技术的不断开展与广泛应用,图像的编码技术得到了飞速开展,并以其优良的特性在图像处理领域得到越来越多的运用。第二章 汉字识别技术2.1汉字识别概述汉字识别CCR:Chinese Character Recognition是用电子计算机自动辨识印刷在纸上和人写在纸或者介质上的汉字。汉字识别技术是计算机智能接口的一个重要组成局部。从学科上划分汉字识别属于模式识别和人工智能的X畴。它涉与到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。2.2汉字识别的原理汉字识别的根本思想是匹配判别。汉字识别可简单的分为两个过程:学习训练过程和识别过程。学习
14、过程就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标准特征库,即模板库。识别过程中,计算机首先按学习过程中的特征提取方法提取出输入模式的特征,然后再与标准特征库中的特征进展匹配,匹配程度最大的汉字即为识别结果。因此,如何确定表达待识别汉字模式的最正确特征组合优化特征,如何进展特征匹配,从而进展高效、快速的识别,是汉字识别技术的关键所在。抽取代表未知汉字模式本质的表达形式如汉字的各种特征和预先存储在机器中的标准汉字模式表达形式的集合称为字典逐一匹配,用一定的准那么进展判别,在机器存储的标准汉字模式表达形式的集合中,找出最接近输入模式的表达形式,该表达模式对应的字就是识别结果。
15、 图2-1 汉字识别原理框图汉字识别原理如图2-1所示:光电扫描器扫描纸上的文字,产生模拟电信号,经模数转器转换为由灰度值表达的数字信号,并送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行、字切分,二值化,细化或抽取轮廓,平滑,规X化等等。经过预处理,汉字模式成为规X化的二值数字点阵信息,其中“l局部反映了汉字笔划局部,“0局部是文字的空白背景。对该二值化汉字点阵,抽取一定的表达形式后,和存储在字典中的标准汉字表达形式匹配判别,就可以识别出输入的未知汉字。2.3汉字识别的一般方法汉字的模式表达形式有多种,每种形式又可以选择不同的特征。每种特征又有不同的抽取方法。这些就使得判别方法和
16、准那么有不同,乃至形成多种不同形式的汉字识别方法。这些方法可以归结为两类一般性处理方法统计决策的方法和句法结构的方法。1. 统计决策的方法statistical decision method在汉字识别中,每个字的特征不是一维,而是一个m维的特征向量;字典的每类标准模板也不是一个,而是一批;判别输入文字属于哪一类时,也不是只把它的特征向量和字典内标准特征向量逐一简单比拟从而得到完全一样的结果才能分类识别,而是根据某种判别准那么,相似到一定程度而且彼此又能区分时就可以分类识别。这些就需要用统计决策的概念、理论、方法来指导,这就产生了汉字识别的统计决策方法。统计决策的方法分类判别时,常用的判别准那
17、么是距离和类似度,它们是分类识别的依据。2. 句法结构的方法syntactic structure method在汉字模式中,代表字形本质特征的结构信息很重要,研究这类结构信息丰富的模式时,可以用简单的子模式sub pattern如笔划构成多级结构来描述一个复杂模式如整个汉字。例如把“叶字先分解为部件“口和部件“十,并知道“十在“口的右面,再把这两个部件分解为笔划“|、“、“一和“一、“|,也知道部件内这些笔划之间相对位置和连接关系,这样就可以把“叶字表达成一维的符号串。假设用、表示部件的界符,用、分别表示部件笔划间的上下、左右、交叉关系,那么可以把“叶字表示为符号串|一一|。汉字是一个模式,
18、部件那么是子模式,而笔划是一种最简单的子模式。组成一个模式的最简单的而且不再分割的子模式叫做基元Pattern primitive。上例中,各笔划以与、都是基元,基元根据一定规律组合成模式。这种对于一个模式。用层层更为简单的子模式,最后用基元来描述的方法,就是结构分析的方法。2.4汉字识别问题与困难当今许多汉字识别技术研究者想提升汉字识别系统的识别效果都遇到了一些同样的问题3。这些问题包括汉字量大、汉字结构复杂、字体字号多以与相似字多。这也使得汉字识别难度远远大于其它语言文字识别。由于汉字自身的特殊性,研究者也无法借鉴其它语言特别是西方兴旺国家的已有的技术来识别汉字。1汉字量特别大,类别繁多我
19、国1980年公布的国家标准GB231280中第一级常用汉字共有3755个,第二级有3008个,两级共有6763个汉字。其中常用汉字有3000至4000个之多。第一级汉字使用频度为997,两级汉字总使用频度为9999。一个汉字识别系统至少要识别这些常用汉字才能满足需求,才具有实际应用价值。显然,汉字样本数量众多,这对一个系统来说是一种考验。大量的样本要占据更多的内存空间,更多的寻址时间,这对一个RTSReal Time Systems来说是致命的。为了提高识别速度而采取一些措施之后,又可能会导致识别率的降低。这也导致了汉字识别系统不得不在识别率和识别速度之间有个妥协。2汉字结构复杂印刷体汉字识别
20、系统的特征提取和匹配识别研究汉字是世界上结构最为复杂的文字之一。它的构成方法主要有三种:象形法、会意法和形声法。不同的构成方法,具备不同的构字规律,这对采用统一标准处理如此大样本的汉字集来既是一大困难。笔画和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世界上常用的其它民族的文字相比,汉字的结构是最为复杂的。3字体字号多我国印刷体汉字种类有超过一百种之多,其中主要以宋体、黑体、楷体和仿宋体为主,其它多为这四种字体的衍生字体。另外,印刷体汉字同一个字的不同字体即使拓扑结构大致一样,但字形点阵还是有很大差异。笔画的粗细、长短、位置与姿态,都有一定的差
21、异,各个部件如偏旁、部首与主体的大小比例与位置,也都有所变异。对于手写汉字,这种差异就更大。手写体有楷体、行书和草书三类,但其自由发挥度很大,以致识别难度更大。印刷体汉字的字号更是繁多,这给汉字归一化带来了一定的计算量,归一化后也有可能使得汉字信息损失一局部,这给汉字识别也带来了困难。4相似字多由于我国汉字种类繁多以与构成方法的原因,汉字集中包含了大量的相似字。这些相似字不仅在形状上、构造上相似,而且在笔画上也相近。例如,“大和“太两个字只相差一个短捺,常用的特征提取算法根本无法区分这两个字的不同之处。这个相似字区分的问题往往出现在汉字识别系统的最后一级,也是至关重要的一级。第三章 印刷体汉字
22、识别的研究3.1 印刷体汉字识别技术的开展历程计算机技术的快速开展和普与,为文字识别技术应运而生提供了必备条件。加上人们对信息社会开展的要求越来越高,文字识别技术的快速开展可想而知。印刷体文字的识别可以说很早就成为人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR的专利4。为了将多年以来印刷在纸上的浩如烟海、与日俱增的报刊杂志、文献资料和单据报表等文字材料输入计算机进展信息处理,单靠人工击键输入,其速度利效率已远远不能满足要求,这就迫切需要研制以印刷体汉字识别为核心的光学汉字字符阅读器Optical Chinese Character Reader,简称OCCR,使印刷体汉
23、字可以高速自动地输入计算机。印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文5。在这篇论文中他们利用简单的模板匹配法识别了l.000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于数字变换的匹配方案,使用了大量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 印刷体 汉字 识别 方法 研究 毕业设计 论文
链接地址:https://www.31ppt.com/p-4876738.html