基于统计特征的脱机手写文字识别.doc
《基于统计特征的脱机手写文字识别.doc》由会员分享,可在线阅读,更多相关《基于统计特征的脱机手写文字识别.doc(68页珍藏版)》请在三一办公上搜索。
1、摘 要III第一章 绪 论11.1 问题的提出11.2 研究的目的与意义11.2.1 应用方面21.2.2 理论方面21.3 汉字识别的发展概况31.4 汉字识别的问题和困难3第二章 脱机手写文字识别的原理52.1 脱机手写文字识别的原理52.2 系统设计框图:72.3 程序流程框图8第三章 常用特征提取算法及算法的确定93.1 特征提取的意义93.2 常用特征提取算法93.2.1 方法一:统计特征提取算法103.2.2 方法二:结构特征提取算法113.2.3 方法三:人工神经网络法113.3 方法的确定12第四章 手写文字识别的预处理134.1 二值化134.2 文字的切分174.3去噪、归
2、一化204.3.1平滑滤波器去噪处理214.3.2归一化234.4 细化25第五章 特征提取及文字的识别295.1 特征提取295.1.1基于笔划密度特征的提取算法305.1.2基于弹性网格特征的提取算法315.2 文字的匹配33第六章 识别结果分析35第七章 设计取得的成果及方法的改进367.1 设计取得的成果367.2 方法的改进36第八章 结论与展望378.1 结论378.2 展望37参考文献38致谢词39附录一:40附录二:48附录三:53附录四:57基于统计特征提取的脱机手写文字识别 摘 要 手写体识别有着广阔的应用前景和很高的理论价值,从应用角度来看各种文档的高速自动录入,档案管理
3、,早期图书资料的数字化,邮件的自动分拣,证件的自动阅读,票据的自动处理等方面都有广泛的应用。手书体文字识别主要分为两种,即在线识别和离线识别。 脱机手写体汉字识别研究对汉字信息处理自动化,对开拓新一代计算机的智能输入有重要意义。本论文主要讲述的是基于统计特征的脱机手写文字识别。主要介绍的是由不同的人写一个人的名字,识别出本人的签名。本文对整个设计过程进行了详细的分析说明。文中首先对用数码相机照下的分辨率为512x512,灰度级为256的手写文字图片进行预处理,包括直方图、二值化、行切分、字切分、规范化、细化等图像处理;其次,对进行预处理的文字进行特征提取,文中选择了统计特征,因为与结构法相比,
4、统计法具有良好的抗噪声、抗干扰的性能;最后识别判决。整个设计过程都以MATLAB作为编程工具实现具有友好的图形用户界面的统计特征脱机手写文字识别系统。关键词:二值化,字切分,规范化,细化,统计特征Based on Statistical Characteristic Off-line Hand-written writing recognition ABSTRACTThe recognition of the handwritten form has the broad application prospec and the very high theory value.Form the ap
5、plication angle looked ,it has the widespread application in the high-speed automatic input,management of the records early digitization of the books and the reference materials,automatial sorts of the mail,automatic reading of the credentials and the the bill aspect and so on.The recognition of the
6、 handwritten mainly divides into two kinds, namely on-line recognition and off-line recognition character.The research about recognition of form and Chinese character is very important to the automation of the Chinese character, and the develops of the new generation of computer about intelligent in
7、put.The present paper mainly tell us the off-line hand-written writing recognition on the statistical characteristic.The main introduction is to writes a persons name by the different person and disinguish myself signature.First the digital camera illuminates the resolution is 512x512, the gradation
8、 level is 256 hand-written writing picture which we carries on the pretreatment to,including histogram, binaryzation, line of segmentation, character segmentation, standardization, refinement and so on; Next, to pretreats after the picture is to carry on the characteristic extraction.In the article
9、has chosen the statistical characteristic, because compareing with the structure law, the method of average has the good anti-noise and the antijamming performance;Finally,it must decied the distinguishes. The entire design process all has the friendly graphical user interface statistical characteri
10、stic off-line writing by hand-writing recognition system by MATLAB as the programming tool realization.Key words: Binaryzation, Character segmentation, Standardization, Refinement, Statistical characteristic第一章 绪 论1.1 问题的提出文字是人类信息交流的主要载体。随着计算机、信息技术的高速发展,使用计算机处理并识别人们的文字信息也就成为了一个非常重要的研究领域。文字识别技术13是指用计
11、算机自动、高速地辨识写在纸(或介质)上的数字、英文符号或汉字,是模式识别的一个重要分支,它涉及模式识别、图像处理、数字信号处理、人工智能、模糊数学、信息论、计算机等学科,是一门综合性技术。文字识别是模式识别的一个重要分支,也是该领域最为困难的问题,它涉及模式识别亦可译作模式辨认、图象识别、图形识别、型式识别是近30年来得到迅速发展的一门新兴边缘学科。手写字符识别的发展历史可以追溯到本世纪50年代,伴随着手写板硬件的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,
12、特别是英文,已经开始研究完全无限制的整句识别技术。然而,尽管联机手写体字符识别和印刷体字符识别技术已经比较成熟,但由于在有些场合,不能采用书写板等专用的输入设备输入文字,或文字信息已经是以手写体的形式存在,如果要利用计算机进行文字识别,就只能进行脱机手写体字符识别。研究手写文字识别对挑战现有的模式识别理论和方法;促进相关学科的发展与完以及各学科的相互融合与借鉴;对解决其他文字具有推动作用和参考价值。1.2 研究的目的与意义当今社会是一个网络四通八达、资源高度共享、信息传播迅速的信息社会。为满足资源共享、信息传播的需要,大量的中文信息都需要在计算机上进行处理。目前,计算机上的中文信息处理系统,可
13、以让人轻松愉快地对输入的中文信息进行处理。然而汉字录入的困难制约着系统的效率,己经成为一个有待解决的“瓶颈”问题。汉字识别的研究与开发,无疑将满足人们对高速自动输入汉字的强烈要求,它在办公自动化、印刷业、信息传播等方面都有着广泛的应用前景。汉字识别是一门多学科综合的研究课题,是模式识别的热点和难点。它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具,另一方面,它的研究与开发也必将促进各学科的发展。因而,汉字识别有着重要的理论意义。1.2.1 应用方面当前研究
14、脱机手写文字识别的意义在于:它是中文信息录入的理想手段(计算机技术的发展,使得文字输入成为文字信息处理系统提高速度的“瓶颈”问题)。要解决这个问题,必须采用计算机自动识别文字或语音的方式。而脱机手写文字识别一直被公认为文字信息录入的理想手段;文字识别是智能计算机接口的重要组成部分(智能计算机是在更高的程度上,更完善的模拟和取代人类脑力劳动的全新一代的计算机。智能计算机能识别文字、图形和景物,能听懂语音,能理解文章等。视觉是智能计算机接受外界信息的重要手段。而识别文字是智能计算机必备的功能);文字识别技术是提高办公自动化水平的主要因素(办公自动化就是要求用计算机来代替人日常的办公活动,可以借助计
15、算机来进行文档的处理,进行工程设计等工作。在多媒体时代,图象信息占主要的比重,图象中有着大量的文字信息。文字的自动识别对图象的处理以及存储有着重要的意义);文字识别是重要的信息压缩手段(文字图象经识别后形成代码,信息量压缩了100倍以上,对文字信息压缩、传输有重要的意义);文字识别丰富和完善了模式识别的理论(手写文字识别是模式识别中的一个难题,模式的特征和分类都很复杂。对手写文字识别的研究不仅使模式识别理论与具体的应用相结合,而且推动了模式识别理论的发展)。1.2.2 理论方面 汉字识别不但在实际应用方面十分重要,在理论研究方面也有重大意义。汉字字量大,即模式类别很多,是大类别(或者称为超多类
16、)模式识别问题,涉及到模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、中文信息处理等多个学科,是一门综合性技术,在中文信息、办公自动化、机器翻译、人工智能等高技术领域,都有着重要的价值和意义。1.3 汉字识别的发展概况早在本世纪六十年代,人们就开始了对印刷体汉字识别的研究工作。最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy2。1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷汉字。1977年,日本东芝综合研究所研制出能识别2000个印刷体汉字的实验装置;1983年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究
17、工作4。七十年代末,我国开始了对汉字识别的研究。1985年,南通电子所研究出能识别两种字体1800个单字的识别方法;1986年,清华大学计算机系和沈阳自动化所先后研究出能识别3755个印刷体汉字的实验系统;1986年11月,清华大学的朱夏宁等研究的能识别6763个印刷体汉字的汉字识别试验系统通过了技术鉴定;1992年清华大学的许宁在博士学位论文中,提出了一种基于人工神经网络方法的印刷体汉字识别方法4。目前对于印刷体汉字识别的研究工作己经趋于成熟,己有一些实用系统在市场销售。如清华文通、曙光OCR、汉王OCR等。进入90年代,国家教委基础研究与高科技司和国家“八六三”高科技计划智能计算机主题专家
18、组为了了解我国汉字识别的水平,于1991年、1992年和1994年先后召开了三次汉字识别和汉语语音识别评比研讨会。1990年以来,在“八六三”资金的支持下,通过检查、评测以及在市场的激烈竞争中,我国的印刷体汉字识别系统的主要性能指标有了新的突破,在商品市场中逐渐完善,识别系统进入大发展的阶段。相应的测试结果请参看文献1.4汉字识别的问题和困难和所有模式识别系统一样,汉字识别的主要性能指标是正确识别率、识别速度。从实用角度看,还应考虑系统的复杂性、可靠性和价格对识别系统识别率和识别速度的要求,很难有一种统一的、严格的标准,主要是根据实际应用的需要来确定。但是,作为一种输入手段,汉字识别系统的性能
19、应该和其它输入手段(如人工键盘输入)相比拟,在某些特殊的应用场合,对识别系统的要求还应更高。要达到上述要求是相当困难的,这是因为,从技术上讲,人们关于模式识别的研究虽己有较长的历史,但迄今仍没有能够全面地适用于分析或描述各种模式的严谨的理论。在研究某一种模式识别问题时,有的方法比较巧妙,或者说,某种识别方法较符合被识别的模式集合的情况,因而得到较好的结果,但是该方法应用于另一种模式集合却可能获得很不理想的结果,因此,所研究的某一种方法往往因其只适合于某些限定的情况,而呈现出某种局部最佳性而非全局最佳。从客观上说,汉字是一种特殊的模式集合,这种集合的模式种类(汉字字数)很多、结构复杂,而且有的模
20、式十分相似,加上印刷质量以及其它干扰因素的影响,人们在书写时的随意性、字形不够规范等,都使正确识别十分困难。汉字识别的问题和困难,更大程度上体现在汉字集合本身所固有的一些特点上。第一,汉字字符集数量大。我们常用的汉字有30004000个,国标GB2312-80字库共有汉字6763个,但是受到识别方法的局限,对某一待识字进行识别时,一般必须将该字和字典模式库中的字进行比较,找出其中最相似的字。这样,对于大字符集的识别速度就必然较低。为提高速度,常采用树分类,即多级识别方法,但相应地就会使识别率下降。这是正确识别率和识别速度的矛盾,同时也是汉字识别的主要困难。第二,汉字的字体多。印刷体有宋体、仿宋
21、体、黑体、楷体等字体,手写体则有楷书、行书和草书等三大类。对印刷体汉字,不同字体的同一个字的字形点阵亦不相同;对于手写体汉字,这种差别就更大。因此,计算机进行自动识别时,很难将不同字体的同一个字,用一个参考汉字来比较、判定,这样,为适应对各种字体的识别就必然会使得汉字识别的字典模式库的规模变得十分庞大。第三,汉字结构复杂、字形相似。汉字笔划最多的有36划,平均每个汉字笔划为11划。由于笔划多,所以有的汉字结构十分复杂,有的字虽然笔划较少,但字形却十分相似,如“人、入”、“土、士”、“鸟、乌”、“己、已、巳、乙”、“太、大、犬”等。这些字只有一点之差,或者某一笔划长短略有差别,其意义就迥然不同。
22、这些都是汉字识别方法的研究中必须考虑的。第二章 脱机手写文字识别的原理2.1 脱机手写文字识别的原理原始文本用扫描仪或摄像机进行光电转换输入到计算机中,经过光电转换的文本是一幅两维的点阵图像,图像可以是灰度的,也可以是二值的,现在一般都采用二值图像,即图像中所有象素点的取值非0即1,值为1的点称为前景点或黑点,为0的点称为背景点或白点。由于目前字符识别算法仍是以每个字符为一个识别单位,因此首先要把单个字符的图像块从文本图像中分割出来,这一过程称为行字分割。一般来说,手写文本没有版面问题,不需要进行版面分析和理解,对于书写在稿纸上的文本,行字分割也很容易,只要书写比较规整,通常只要采用投影方法就
23、能有效地解决这一问题。单字图像块分离出来后,进入识别环节,这是整个识别系统的核心,包括预处理、特征提取和识别三个部分。一般情况下所说的手写体字符识别通常是指单字识别。预处理的目的是去除噪声,加强有用信息、压缩冗余信息并尽可能对手写字符产生的大小、位置和形状等方面的变化进行吸收,为特征提取做好准备。预处理后,数据的维数依然很高。特征提取的目的是将图像信息压缩成一组维数较低的、能够反映原始图像本质的特征。一组稳定的和具有代表性的特征,是一个识别算法的核心,因此,采用不同特征的识别算法即使是采用相同的分类策略也可以认为是不同的算法。总的来说,特征可以根据提取方法和侧重点的不同分为统计特征和结构特征两
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 统计 特征 脱机 手写 文字 识别
链接地址:https://www.31ppt.com/p-3940772.html