基于统计特征的脱机手写文字识别.doc
摘 要III第一章 绪 论11.1 问题的提出11.2 研究的目的与意义11.2.1 应用方面21.2.2 理论方面21.3 汉字识别的发展概况31.4 汉字识别的问题和困难3第二章 脱机手写文字识别的原理52.1 脱机手写文字识别的原理52.2 系统设计框图:72.3 程序流程框图8第三章 常用特征提取算法及算法的确定93.1 特征提取的意义93.2 常用特征提取算法93.2.1 方法一:统计特征提取算法103.2.2 方法二:结构特征提取算法113.2.3 方法三:人工神经网络法113.3 方法的确定12第四章 手写文字识别的预处理134.1 二值化134.2 文字的切分174.3去噪、归一化204.3.1平滑滤波器去噪处理214.3.2归一化234.4 细化25第五章 特征提取及文字的识别295.1 特征提取295.1.1基于笔划密度特征的提取算法305.1.2基于弹性网格特征的提取算法315.2 文字的匹配33第六章 识别结果分析35第七章 设计取得的成果及方法的改进367.1 设计取得的成果367.2 方法的改进36第八章 结论与展望378.1 结论378.2 展望37参考文献38致谢词39附录一:40附录二:48附录三:53附录四:57基于统计特征提取的脱机手写文字识别 摘 要 手写体识别有着广阔的应用前景和很高的理论价值,从应用角度来看各种文档的高速自动录入,档案管理,早期图书资料的数字化,邮件的自动分拣,证件的自动阅读,票据的自动处理等方面都有广泛的应用。手书体文字识别主要分为两种,即在线识别和离线识别。 脱机手写体汉字识别研究对汉字信息处理自动化,对开拓新一代计算机的智能输入有重要意义。本论文主要讲述的是基于统计特征的脱机手写文字识别。主要介绍的是由不同的人写一个人的名字,识别出本人的签名。本文对整个设计过程进行了详细的分析说明。文中首先对用数码相机照下的分辨率为512x512,灰度级为256的手写文字图片进行预处理,包括直方图、二值化、行切分、字切分、规范化、细化等图像处理;其次,对进行预处理的文字进行特征提取,文中选择了统计特征,因为与结构法相比,统计法具有良好的抗噪声、抗干扰的性能;最后识别判决。整个设计过程都以MATLAB作为编程工具实现具有友好的图形用户界面的统计特征脱机手写文字识别系统。关键词:二值化,字切分,规范化,细化,统计特征Based on Statistical Characteristic Off-line Hand-written writing recognition ABSTRACTThe recognition of the handwritten form has the broad application prospec and the very high theory value.Form the application angle looked ,it has the widespread application in the high-speed automatic input,management of the records early digitization of the books and the reference materials,automatial sorts of the mail,automatic reading of the credentials and the the bill aspect and so on.The recognition of the handwritten mainly divides into two kinds, namely on-line recognition and off-line recognition character.The research about recognition of form and Chinese character is very important to the automation of the Chinese character, and the develops of the new generation of computer about intelligent input.The present paper mainly tell us the off-line hand-written writing recognition on the statistical characteristic.The main introduction is to writes a persons name by the different person and disinguish myself signature.First the digital camera illuminates the resolution is 512x512, the gradation level is 256 hand-written writing picture which we carries on the pretreatment to,including histogram, binaryzation, line of segmentation, character segmentation, standardization, refinement and so on; Next, to pretreats after the picture is to carry on the characteristic extraction.In the article has chosen the statistical characteristic, because compareing with the structure law, the method of average has the good anti-noise and the antijamming performance;Finally,it must decied the distinguishes. The entire design process all has the friendly graphical user interface statistical characteristic off-line writing by hand-writing recognition system by MATLAB as the programming tool realization.Key words: Binaryzation, Character segmentation, Standardization, Refinement, Statistical characteristic第一章 绪 论1.1 问题的提出文字是人类信息交流的主要载体。随着计算机、信息技术的高速发展,使用计算机处理并识别人们的文字信息也就成为了一个非常重要的研究领域。文字识别技术13是指用计算机自动、高速地辨识写在纸(或介质)上的数字、英文符号或汉字,是模式识别的一个重要分支,它涉及模式识别、图像处理、数字信号处理、人工智能、模糊数学、信息论、计算机等学科,是一门综合性技术。文字识别是模式识别的一个重要分支,也是该领域最为困难的问题,它涉及模式识别亦可译作模式辨认、图象识别、图形识别、型式识别是近30年来得到迅速发展的一门新兴边缘学科。手写字符识别的发展历史可以追溯到本世纪50年代,伴随着手写板硬件的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。然而,尽管联机手写体字符识别和印刷体字符识别技术已经比较成熟,但由于在有些场合,不能采用书写板等专用的输入设备输入文字,或文字信息已经是以手写体的形式存在,如果要利用计算机进行文字识别,就只能进行脱机手写体字符识别。研究手写文字识别对挑战现有的模式识别理论和方法;促进相关学科的发展与完以及各学科的相互融合与借鉴;对解决其他文字具有推动作用和参考价值。1.2 研究的目的与意义当今社会是一个网络四通八达、资源高度共享、信息传播迅速的信息社会。为满足资源共享、信息传播的需要,大量的中文信息都需要在计算机上进行处理。目前,计算机上的中文信息处理系统,可以让人轻松愉快地对输入的中文信息进行处理。然而汉字录入的困难制约着系统的效率,己经成为一个有待解决的“瓶颈”问题。汉字识别的研究与开发,无疑将满足人们对高速自动输入汉字的强烈要求,它在办公自动化、印刷业、信息传播等方面都有着广泛的应用前景。汉字识别是一门多学科综合的研究课题,是模式识别的热点和难点。它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具,另一方面,它的研究与开发也必将促进各学科的发展。因而,汉字识别有着重要的理论意义。1.2.1 应用方面当前研究脱机手写文字识别的意义在于:它是中文信息录入的理想手段(计算机技术的发展,使得文字输入成为文字信息处理系统提高速度的“瓶颈”问题)。要解决这个问题,必须采用计算机自动识别文字或语音的方式。而脱机手写文字识别一直被公认为文字信息录入的理想手段;文字识别是智能计算机接口的重要组成部分(智能计算机是在更高的程度上,更完善的模拟和取代人类脑力劳动的全新一代的计算机。智能计算机能识别文字、图形和景物,能听懂语音,能理解文章等。视觉是智能计算机接受外界信息的重要手段。而识别文字是智能计算机必备的功能);文字识别技术是提高办公自动化水平的主要因素(办公自动化就是要求用计算机来代替人日常的办公活动,可以借助计算机来进行文档的处理,进行工程设计等工作。在多媒体时代,图象信息占主要的比重,图象中有着大量的文字信息。文字的自动识别对图象的处理以及存储有着重要的意义);文字识别是重要的信息压缩手段(文字图象经识别后形成代码,信息量压缩了100倍以上,对文字信息压缩、传输有重要的意义);文字识别丰富和完善了模式识别的理论(手写文字识别是模式识别中的一个难题,模式的特征和分类都很复杂。对手写文字识别的研究不仅使模式识别理论与具体的应用相结合,而且推动了模式识别理论的发展)。1.2.2 理论方面 汉字识别不但在实际应用方面十分重要,在理论研究方面也有重大意义。汉字字量大,即模式类别很多,是大类别(或者称为超多类)模式识别问题,涉及到模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、中文信息处理等多个学科,是一门综合性技术,在中文信息、办公自动化、机器翻译、人工智能等高技术领域,都有着重要的价值和意义。1.3 汉字识别的发展概况早在本世纪六十年代,人们就开始了对印刷体汉字识别的研究工作。最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy2。1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷汉字。1977年,日本东芝综合研究所研制出能识别2000个印刷体汉字的实验装置;1983年东芝研究中心又进行了对限制性手写体与印刷体汉字识别兼容的研究工作4。七十年代末,我国开始了对汉字识别的研究。1985年,南通电子所研究出能识别两种字体1800个单字的识别方法;1986年,清华大学计算机系和沈阳自动化所先后研究出能识别3755个印刷体汉字的实验系统;1986年11月,清华大学的朱夏宁等研究的能识别6763个印刷体汉字的汉字识别试验系统通过了技术鉴定;1992年清华大学的许宁在博士学位论文中,提出了一种基于人工神经网络方法的印刷体汉字识别方法4。目前对于印刷体汉字识别的研究工作己经趋于成熟,己有一些实用系统在市场销售。如清华文通、曙光OCR、汉王OCR等。进入90年代,国家教委基础研究与高科技司和国家“八六三”高科技计划智能计算机主题专家组为了了解我国汉字识别的水平,于1991年、1992年和1994年先后召开了三次汉字识别和汉语语音识别评比研讨会。1990年以来,在“八六三”资金的支持下,通过检查、评测以及在市场的激烈竞争中,我国的印刷体汉字识别系统的主要性能指标有了新的突破,在商品市场中逐渐完善,识别系统进入大发展的阶段。相应的测试结果请参看文献1.4汉字识别的问题和困难和所有模式识别系统一样,汉字识别的主要性能指标是正确识别率、识别速度。从实用角度看,还应考虑系统的复杂性、可靠性和价格对识别系统识别率和识别速度的要求,很难有一种统一的、严格的标准,主要是根据实际应用的需要来确定。但是,作为一种输入手段,汉字识别系统的性能应该和其它输入手段(如人工键盘输入)相比拟,在某些特殊的应用场合,对识别系统的要求还应更高。要达到上述要求是相当困难的,这是因为,从技术上讲,人们关于模式识别的研究虽己有较长的历史,但迄今仍没有能够全面地适用于分析或描述各种模式的严谨的理论。在研究某一种模式识别问题时,有的方法比较巧妙,或者说,某种识别方法较符合被识别的模式集合的情况,因而得到较好的结果,但是该方法应用于另一种模式集合却可能获得很不理想的结果,因此,所研究的某一种方法往往因其只适合于某些限定的情况,而呈现出某种局部最佳性而非全局最佳。从客观上说,汉字是一种特殊的模式集合,这种集合的模式种类(汉字字数)很多、结构复杂,而且有的模式十分相似,加上印刷质量以及其它干扰因素的影响,人们在书写时的随意性、字形不够规范等,都使正确识别十分困难。汉字识别的问题和困难,更大程度上体现在汉字集合本身所固有的一些特点上。第一,汉字字符集数量大。我们常用的汉字有30004000个,国标GB2312-80字库共有汉字6763个,但是受到识别方法的局限,对某一待识字进行识别时,一般必须将该字和字典模式库中的字进行比较,找出其中最相似的字。这样,对于大字符集的识别速度就必然较低。为提高速度,常采用树分类,即多级识别方法,但相应地就会使识别率下降。这是正确识别率和识别速度的矛盾,同时也是汉字识别的主要困难。第二,汉字的字体多。印刷体有宋体、仿宋体、黑体、楷体等字体,手写体则有楷书、行书和草书等三大类。对印刷体汉字,不同字体的同一个字的字形点阵亦不相同;对于手写体汉字,这种差别就更大。因此,计算机进行自动识别时,很难将不同字体的同一个字,用一个参考汉字来比较、判定,这样,为适应对各种字体的识别就必然会使得汉字识别的字典模式库的规模变得十分庞大。第三,汉字结构复杂、字形相似。汉字笔划最多的有36划,平均每个汉字笔划为11划。由于笔划多,所以有的汉字结构十分复杂,有的字虽然笔划较少,但字形却十分相似,如“人、入”、“土、士”、“鸟、乌”、“己、已、巳、乙”、“太、大、犬”等。这些字只有一点之差,或者某一笔划长短略有差别,其意义就迥然不同。这些都是汉字识别方法的研究中必须考虑的。第二章 脱机手写文字识别的原理2.1 脱机手写文字识别的原理原始文本用扫描仪或摄像机进行光电转换输入到计算机中,经过光电转换的文本是一幅两维的点阵图像,图像可以是灰度的,也可以是二值的,现在一般都采用二值图像,即图像中所有象素点的取值非0即1,值为1的点称为前景点或黑点,为0的点称为背景点或白点。由于目前字符识别算法仍是以每个字符为一个识别单位,因此首先要把单个字符的图像块从文本图像中分割出来,这一过程称为行字分割。一般来说,手写文本没有版面问题,不需要进行版面分析和理解,对于书写在稿纸上的文本,行字分割也很容易,只要书写比较规整,通常只要采用投影方法就能有效地解决这一问题。单字图像块分离出来后,进入识别环节,这是整个识别系统的核心,包括预处理、特征提取和识别三个部分。一般情况下所说的手写体字符识别通常是指单字识别。预处理的目的是去除噪声,加强有用信息、压缩冗余信息并尽可能对手写字符产生的大小、位置和形状等方面的变化进行吸收,为特征提取做好准备。预处理后,数据的维数依然很高。特征提取的目的是将图像信息压缩成一组维数较低的、能够反映原始图像本质的特征。一组稳定的和具有代表性的特征,是一个识别算法的核心,因此,采用不同特征的识别算法即使是采用相同的分类策略也可以认为是不同的算法。总的来说,特征可以根据提取方法和侧重点的不同分为统计特征和结构特征两大类,分别适用于统计和句法两种识别方法。经过特征提取后,就可以进行识别(分类)了。识别就是在特征空间中用统计决策方法或句法分析方法将被识别对象归为某一类别。对于汉字识别,由于类别数巨大,故往往采用多级分类策略,以提高识别效率。输入的汉字首先经前一级或几级处理,判定它属于整个汉字集合的某一子集,然后再判定它属于该子集的某个类别或更小的子集。前面的一级或几级称为粗分类或预分类,最后一级称为细分类或识别。由于与整个汉字集合相比较,每个子集的字数要少得多,因此,采用多级分类策略可以缩短匹配时间,提高识别速度。系统的最后一级是后处理。单字识别完成之后,系统可以利用上下文或其它方面的信息来纠正一些识别错误,以提高系统的识别率。目前,手写体字符识别的研究依然以单字识别为主,即自分割好的字符图像开始,至输出单个字符的识别结果为止,这是整个识别系统的核心。而单字识别中,最关键的又是特征提取和相应的分类方法。脱机手写文字识别的基本过程如下:书写在纸张上的手写体文稿用数码相机拍下成“JPG”格式的图片,把此图片转化为“bmp”格式,在转化为一个二维点阵图象,由预处理阶段对所得图象作相应处理,识别阶段首先提取文字图象的特征,然后根据特征对待识别文字进行判别。手写体汉字文稿图象的获取预处理特征提取分类识别识别输出二值化文字切分中值滤波去噪归一化细化图2.1 脱机手写汉字识别系统框图 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0图2.2 二值点阵图“十”字 如图2.1所示,数码相机拍下的手写文字,经模数转换成具有一定灰度值的数字采样信号送入计算机,预处理环节一般包括消除噪声,二值化,行字切分、平滑(或中值)、归一化,细化等。经过预处理的文字成为规范化的二值点阵信息(如图2.2),其中“1”表示笔划部分,"0”表示背景部分。 对于二值化点阵,按照识别方法的要求,抽取代表该字的特征,并与存贮在计算机中己知标准文字的特征进行匹配判别,找出字典特征集中与输入文字特征最接近的一个文字,这个字被认为是该字的识别结果。2.2 系统设计框图:本系统首先将样本文字的特征提取归类到样品库,在把待识别字的特征与样本库里的样品字的特征进行比较即匹配,找出最相似的一组字体从而实现文字的识别。印刷文字图片的获取读入图片预处理文字统计特征提取手写文字图片的获取读入图片预处理待识别文字的统计特征提取第一部分第二部分汉字归类到样品库与样品库匹配识别结果输出2.3 系统设计框图2.3 程序流程框图 开始图片的获取读入手写文字图片直方图二值化行分,字切分中值去噪去噪归一化细化统计特征提取 中值滤波去噪归一化细化待识别汉字统计特征提取绝对值距离判决flag=0flag=1结束图2.4 程序流程框图第三章 常用特征提取算法及算法的确定3.1 特征提取的意义手写体汉字识别的关键之一就在于怎样快速的抽取能充分描述汉字模式的稳定可靠的特征。在汉字识别系统中,对获得汉字图像直接进行分类判别是不现实的。首先,汉字图像数据占用很大的存储空间,直接进行识别费时费力,其计算量无法接受。一幅48 ×48点阵的汉字图像,若不经过特征提取,则输入点可达2304,识别速度必然很低;其次,汉字图像中含有许多与识别无关的信息,如汉字图像的背景等。因此必须进行特征的提取和选择,把这些信息转换成若干个能反映本质的特征,这样就能对被识别的汉字图像数据进行大量压缩,有利于汉字识别。为了提高分类处理的速度和精度,对提取的特征还必须选择最有代表性的特征,其信息冗余度最小,而且希望具有比例、旋转、位移不变性。特征提取是很重要的,若提取的不恰当,分类就不能很准确,甚至无法分类。良好的特征应具有四个特点:(1)区别性:对于属于不同类别的汉字来说,它们的特征值应具有明显的差异;(2)可靠性:对于同类的汉字,它们的特征值应比较相近;(3)独立性:所使用的各特征之间彼此不相关;(4)数量少:汉字识别系统的复杂度随着特征的个数的增长而迅速增大。从数学上讲,特征提取相当于把一个在维数较高的测量空间中的物理模式变成一个在维数较低特征空间中的模式,如果提取和选择了m个特征,则此物理模式可用一个m维特征向量描述,表现为m维欧氏空间中的一个点。m维特征向量表示为:3.2 常用特征提取算法近二十多年来,研究人员提出了许多种不同的特征提取方法,这些特征主要分成两大类,即统计特征和结构特征。结构特征是建立在笔划的基础之上,通常以笔划或笔划构成的部件之间的空间结构关系来描述汉字,而统计特征则是建立在二值或灰度值点阵图像基础之上,通常是对汉字点阵信息进行变换后提取。对于手写体汉字,要准确提取到结构特征是极其困难的,因而难以采用基于结构特征的方法加以识别。而统计特征因其多样性、互补性、易于提取等优点,使其在手写体汉字识别领域占有十分突出的地位。3.2.1 方法一:统计特征提取算法统计决策法是从原始数据中提取与分类最相关的信息,包括矩、傅立叶描绘子、样条曲线拟合等。特征应对同一类字符类的形变尽量保持不变。统计决策法即统计特征分为全局特征和局部特征。全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括笔画穿透数目特征、全局笔画方向特征、背景特征等;局部统计特征是将汉字点阵图象分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括四角特征、方向线素特征、局部笔画方向特征等。用来描述事物属性的参量叫做特征,它可以通过对模式的多个样木的测量值进行统计分折后按一定准则来提取。例如:在汉字识别系统中,我们可以把每个汉字的图形分为若干小方块(图3.1),然后统计每一小方块中的黑像素,构成一个多维特征矢量,作为该汉字的特征。必须注意的是:在选择特征时,用于代表各类模式的特征应该把同类模式的各个样本聚集在一起,而使不同类模式的样本尽量分开,以保证识别系统能具有足够高的识别率。目前用于手写汉字识别的统计特征,根据特征抽取区域的不同又可粗略地分为全局统计特征和局部统计特征两大类,它们通常与统计匹配方法或神经网络分类器一起使用。(1)全局统计特征全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括:全局变换特征、不变矩特征、笔划分布特征、笔划穿透数目特征等。(2)局部统计特征局部统计特征是通过提取局部图像的信息来组成描述汉字的特征,或者将汉字点阵图像分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括:背景特征、网格特征、Gabor特征、方向线素特征、细胞特征、相补特征、四角特征等。3.2.2 方法二:结构特征提取算法所谓结构是指组成一个模式的基本单元(简称基元)之间的关系。结构特征法即结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需要先抽取笔段或基本笔画作为基元,由这些基元再构成部件(子模式),由部件的组合来描述汉字(模式),最后再利用形式语言及自动机理论进行文法推断,即识别。例如,拼音文字的基元是字母,若干个字母按一定规律组成一个单字。在识别某一个单字时,如果能判别组成这个字的各个字母以及它们的(结构)关系,就可以识别这个字。基于这种原理,拼音文字的识别系统中的“字典”应包括字母,以及由字母组成单字的规律。在对某一个单字进行识别时,则应先提取构成这个单字的字母并分析它的结构,然后将它跟字典中所有已知单字的基元及其结构关系逐个加以比较,就可以确定待识单字和哪一个已知单字属于同一类别。这种识别方法跟英语句子的语法分析相似,因而有时也称之为“句法识别法”。由于结构特征可以准确地描述待识别字符的几何特征,同时受噪声和字符形变的影响较小,因此基于结构的识别方法是字识别的一种有力工具。对汉字国标(GB2312-80)一级、二级字库的6763个汉字的统计结果表明,包含横笔划的汉字占99.8%,包含竖笔划的汉字占99.85%,包含撇笔划的占93.5%,包含捺笔划的占76.5%,4种笔划在汉字中出现的频率为:横笔划占39.51%,竖笔划占33.94%,撇笔划占16.77%,捺笔划占9.78%。从以上结果可知,对于标准汉字字体而言,经过二值化和细化后的图像汉字主要包括4种笔划,即横、竖、撇、捺(点归入撇或捺),其他笔划均可视为复合笔划。由此可见如果能够提取出汉字的这4个基本特征就可以识别出汉字了。3.2.3 方法三:人工神经网络法人工神经网络(Artificial Neural Network,以下称ANN)是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,无法确定ANN的工作方式是否与人脑神经元的运作方式相同,但是ANN正在吸引着越来越多的注意力。ANN中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以非常复杂,从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。ANN还具有一定的自适应的学习与组织能力,组成网络的各个“细胞”可以并行工作,并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。ANN可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图像点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,ANN提供了一种“字符自动识别”的可能性。此外,ANN分类器是一种非线性的分类器,它可以提供很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。3.3 方法的确定上述三种识别方法各有特点。结构法比较直观,能较好反映事物的结构特性;问题是基元的提取很不容易,各基元的关系也比较复杂。通常,为了抽取笔画需要将原始点阵图象进行细化处理,但是细化算法不仅速度慢,而且容易产生伪笔画段,如将一个四叉点变成了二个三叉点,给准确抽取基元造成了困难,抗干扰性能也较差。汉字的结构复杂、字数又多,采用结构法很难得到很好的效果。统计法利用计算机来抽取特征,比较方便,抗干扰性能较好;缺点是没有充分利用模式的结构特性。人工神经网络方法需要很长的时间来锻炼,在短时间内无法实现。我们目前常用的做法是将神经网络方法和传统的识别方法结合起来使用,互相取长补短,但这样的方法实现起来很困难。鉴于上诉分析的方法的优缺点及自己能力、时间等,在该论文中我选择了统计决策中的局部特征方法对文字进行特征提取。第四章 手写文字识别的预处理脱机(Off-line)手写体文字识别时,首先将写在纸上的汉字,用数码相机拍下,转换为数字信号输入计算机。由于干扰信号的存在,通常不能直接进行识别处理。这些干扰信号,或称作噪声,大致分为两类。(1)因文字背景(如书写用纸)有杂质,书写不好,文字笔画附近出现污点(称黑色孤立点),或文字笔画中有缺陷(称为白色孤立点)。(2)聚焦不好,书写用力不均、字体潦草等产生的干扰。此类干扰表现为文字倾斜,字形大小不一,笔画粗细不均,甚至笔画断开或相邻文字粘连等。因此,为了对汉字信息能做进一步的处理,必须进行预处理,清除黑白孤立点扶正倾斜文字,均匀笔画粗细,分离粘连文字笔画,使位置、大小不一的文字规范化。预处理过程一般包括二值化、行、字切分,平滑、去噪声,规范化和细化(或抽取轮廓)等。不同的识别方法,对预处理的项目和要求有所差别。如结构识别方法,对字体大小归一化可以从简甚至不需要。有的识别方法细化预处理要求很高,有的则不需要。预处理的每部分都是整个脱机手写文字进行识别的关键,即在进行文字识别前必须对文字进行预处理的操作。图像在扫描过程中会带来噪声,且不同的扫描分辨率所产生的图像质量也各不相同,此外还需要处理整篇文档图像中字符的正确分割,并且由于分割后字符的大小、字体都各不相同,因此还要对字符进行归一化。由此可见,扫描图像预处理工作的好坏将会直接影响到识别的效果。在预处理过程中需要解决的问题主要有图像二值化、字符切分、平滑化(去噪)、归一化、细化(轮廓抽取)等,不同的识别方法对预处理的项目和要求有所差别。4.1 二值化由于脱机手写体汉字识别只需要处理图像中的字形信息,对颜色等信息不做处理,所以须对扫描得到的文本图像进行二值化处理,以去掉不必要的信息,提高识别的速度,并为以后的字符特征提取打下基础。用于识别的汉字图像通常可以是256级灰度图,所谓图像的二值化就是通过设阈值(threshold),把它变为仅用两个灰度级分别表示图像前景和背景颜色的二值图像。处理方法如下:假设一幅图的像素值为f (x, y )(r 1 ,r 2,.,rm),阈值为T =ri ,1i m,则: 汉字图像二值化的方法通常有:整体阈值二值化、局部阈值二值化、动态阈值二值化。图4.1左到右依次为原图像,二值化后图(一)整体阈值二值化(1)人工设定整体阈值根据实验和人的先验经验,预先给定一个固定阈值。当像素的灰度值小于该阈值时认为该像素为文字笔画,否则为背景。这是一种最常用的最简单的速度最快的二值化方法。当文字清晰,轮廓明显,干扰很小时是一种行之有效的二值化方法。人工设定整体阈值的缺点是不能根据每个文字确定最佳的阈值,而且确定阈值后当外界条件改变时,不能使阈值随之改变。 (a) (b) (c) (d)图4.2 人工设定不同阈值二值化处理(2)由灰度级直方图确定整体阈值灰度级直方图给出了一张图像灰度级的概貌描述,字符点阵图像的直方图一般有两个峰值,一个峰值对应文字笔划部分,另一个峰值对应字符的背景部分。阈值应取在两个峰值的波谷处,波谷越深越陡,二值化效果越好。这是一种根据图像和背景的灰度值自动确定整体阈值的方法。图4.3 灰度直方图图4.4上到下左到右依次为原图像,直方图,二值化后图(二)局部阈值二值化由像素的灰度值和该像素周围像素点局部灰度特征来确定该像素的局部阈值二值化值叫做局部阈值选择。识别书写或印刷质量差,干扰较为严重的字符文稿时整体阈值法很难正确进行二值化,这时采用局部阈值二值化是一个很好的选择。(三)动态阈值二值化当阈值选择不仅取决于该像素灰度值以及其周围各小组的灰度值,而且还和该像素坐标位置有关,这叫做动态阈值选择。它可以处理低质量甚至单峰值直方图像。对文字点阵图像而言,其笔画和背景的区分是比较明显的,而且动态阈值法计算时间长,因此在文字识别中很少采用。最后需要指出的是:局部阈值和动态阈值选择虽然能处理书写质量较差的文字,避免整体阈值法带来了不应有的失真,但是时间开销大,而且实际的局部阈值和动态阈值选择算法往往在图形的某些部分上产生整体阈值不会产生的失真,所以,在文字识别中,以整体阈值法作为二值化的主要方法是较为妥当的。所以本文采取由灰度级直方图确定整体阈值的二值化具体算法如下:通过找出出现概率不为0的最小灰度st和找出出现概率不为0的最大灰度nd,求出st与nd的均值作为阈值T即 T=(st+nd)/2基于灰度直方图的自适应阈值的二值化结果如图4.14.2 文字的切分现有的大部分汉字识别系统是建立在单字识别的基础之上的,然而我们经过光学仪器扫描得到的大都是整幅文本图像,而非单个汉字图像,所以鉴于这种情况汉字分割技术便应运而生了。汉字字符的切分就是对每个汉字字符定界,以便于单个汉字的识别。汉字字符数量众多,而且手写体汉字具有随意性,其字符大小、字间距、字内距变化大,所以它的切分难度远远大于西文字符及阿拉伯数字之间的切分。由于目前脱机手写体汉字识别主要是在汉字字符切分的基础上进行,汉字切分的正确与否直接关系到汉字识别的准确程度。因此,对于手写体汉字字符切分的研究具有很重要的理论意义和实用价值。对汉字进行切分时,如果汉字间出现粘连、重叠和交叠等情况,将给切分工作带来很大困难。所谓粘连就是指两个字符的轮廓线在一点或几点接触,如果能找到粘连位置,可以采用直线或直线段将两个字符完全分开;重叠是指两个字符没有接触,属于不同的连通区,但他们的垂直投影有重叠的情况,这种情况无法用直线将两个字符完全分开;交叠是指两个相邻的字符不仅轮廓相连,而且共享某一部分像素区,这种情况处理起来较为复杂但并不常见。此外,一个汉字的左右部分如果分的太开或者汉字内部的笔划出现断裂,在切分时很容易被分割成两个或两个以上的字符,造成切分错误。将上述几种情况综合就会形成更为复杂的情况,如两相邻字符既粘连又重叠或者两相邻字符粘连同时其中一个或两个字符又写得过开等。上述所有这些情况都大大增加了切分的难度,是汉字切分研究的重点和难点。汉字字符的切分方法大致可分为四类,第一种是基于统计方法的切分,即根据字符的总体统计分布特征,确定字符之间的界限,判别时以字符的平均字宽作辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起很重要的作用;第二种是基于汉字结构的切分,即从字与字之间以及汉字本身的结构入手,综合分析、寻找切分的规则;第三种是基于识别的切分方法,即在实际切分前,对各种可能存在的切分结果进行识别,选择合理的切分方式。第四种是整体识别法,即以整个词为待识