倾斜文本图像的快速矫正方法论文09720.doc
《倾斜文本图像的快速矫正方法论文09720.doc》由会员分享,可在线阅读,更多相关《倾斜文本图像的快速矫正方法论文09720.doc(42页珍藏版)》请在三一办公上搜索。
1、中央民族大学学士学位论文Bachelor Thesis of Minzu University of China 倾斜文本图像的快速矫正方法摘 要本文主要提出一种文本图像倾斜矫正的快速算法。在一幅给定的文本图像中,空白字符一般都按照一定的规则分布在页面上。基于文本图像的这一特性,我们提出了一种快速的倾斜矫正方法。在本文介绍的算法中,我们运用映射原理并对其进行改进。改进算法采用在各种倾斜角度下对像素统计的方法来判断文本图像的倾斜角度,而不是传统的通过实际转动图像进行判断。这种算法的优点主要在于处理速度快、抗噪能力强,以及它对文本图像完整性的要求比较低。这种新的算法原理简单明了,并且可以高效的应用
2、于本文图像的实时矫正。关键词:映射;图像;倾斜AbstractThis paper proposes a rapid method to accomplish text images correction from slant ones. In a given text image, blank characters are always distributed in a regular pattern. According to this intrinsic property in text images, an improved algorithm based on projection
3、principle is presented. In the method, statistics method under different angles is introduced and applied for the judge of the slant angle of a given image, instead of traditional method of revolving the given image. The advantage of this algorithm lies in its fastness, robustness and a decrease in
4、the requirement of the text image integrality. The method could be applied for the real-time slant correction effectively and efficiently, although its fundamental principle is simple.Key Words: Projection; Image; Slant 目 录前 言1一 投影的定义4二 传统的投影技术5(一)投影技术概论5(二)投影算法的具体操作过程5(三)传统投影技术的优缺点分析61.传统投影算法的优点62.
5、传统投影算法的缺点7三 映射算法的改进算法10(一)改进算法概论10(二)改进算法的主要思想10(三)改进算法的具体操作过程12四 实验结果展示13五 算法讨论15(一)改进投影算法的优点15(二)改进投影算法的缺点15六 结论17参考文献18附 录19附录1 传统投影算法程序源代码19附录2 改进投影算法程序源代码23致 谢30文献翻译31图表目录图0-1 倾斜图像与正确图像空白行对比. .3表1-1 模拟图像与其行投影值. . .4图2-1 两种旋转方式得出的不同结果. .9图3-1 坐标旋转示意图. .11图4-1 倾斜的彩色文本图像. . .13图4-2 倾斜的二值化文本图像. . .
6、 .13图4-3 矫正后的文本图像. . . .14图4-4 各个角度下的空白行数直方图. .14前 言在数字图像处理领域中,倾斜文本图像矫正发挥着重要的作用。倾斜图像矫正作为图像预处理过程,为图像具体信息识别和提取奠定必要的基础。在光学字符识别系统中,倾斜的字符很可能引起以下两个重要的问题1:第一,若对倾斜的字符进行字符分割操作,有可能导致字符本身的分离,也有可能同时造成含有大量噪音的分割块。第二,若倾斜的字符未进行矫正就直接应用,会使算法锻炼的过程花费更多的计算时间,与此同时,也会造成识别系统所得结果的精确度下降,使算法的稳定性受到负面影响。鉴于倾斜矫正所起的重要作用,现在大部分的光学字符
7、识别系统都包含字符倾斜矫正过程,作为一个重要的预处理步骤。精确的倾斜矫正对随后的图像处理具有重要的意义。对图像的倾斜矫正处理一般包含三个步骤:首先是选定处理对象中的操作区域,其次是对处理图像倾斜角度的估测,再次是将图像根据其倾斜角度进行倾斜矫正。显然,以上的三个步骤中,第二步是最重要的,这也是本文主要介绍的算法将要解决的问题。第三步只需将所处理的图像进行图像旋转即可,这一步骤的实施可以采用简单的图像旋转算法,或者其他的图像处理软件工具,如PhotoShop等。在相关文献中,文本图像倾斜矫正的方法众多。一些典型的方法包括动态广义霍夫变换2、映射算法、改进的霍夫变换3、线性回归4、基于图元识别的快
8、速算法5以及应用变分辨率图像金字塔策略6,这种策略的基本原理也是霍夫变换。长时间以来,由于具有较强的鲁棒性,广义霍夫变换在有关图形识别、特征提取7与倾斜数字图像矫正相关领域,一直备受青睐。霍夫变换的主要原理是将X-Y平面上的点线性映射到平面上的曲线。然而,由于这种算法巨大的运算量将给计算机带来沉重的运算负担8,因此,之后致力于减少霍夫变换运算量的改进算法层出不穷。这些算法包括改进的霍夫变换(Improved Hough Transform),这种算法不仅改进了广义霍夫变换的效果,而且很大程度的提高了原来算法的运行处理速度。对霍夫变换的另一个重大改进是融合了霍夫变换与图像金字塔策略的算法。这种改
9、进算法通过改变图像的分辨率的方式,在减少运算量的同时获得了较好的抗噪音能力。而在提高图像处理速度方面,图元识别算法取得了更大的成就。同时,这种算法保证了计算的结果达到可靠的精度范围。另一类倾斜文本图像矫正的方法则应用了线性回归方法。线性回归算法现在仍是一种直线识别的经典数学方法。利用线性回归方法可以获得颇具竞争力的运算速度,并且具有对图像大小没有限制这一优点。然而,线性回归算法与霍夫变换相比,其抗噪音的能力比较弱,这也是这种算法的主要缺点。在实际应用中被广泛应用的还有映射算法。由于映射算法的原理简单,对计算机存储空间要求低又对所处理的图像完整性要求不高,因此也成为一种较为流行的算法。但是由于传
10、统的映射算法在操作过程中要实际转动文本图像,因此不可避免的降低了其运行速度。在本文中,我们致力于寻找一种原理简单、操作容易、处理速度快且具可靠性的算法。基于映射算法在这些方面的优越性,本文介绍的算法仍采用映射的思想,同时对传统的映射算法进行改进,提高其运行速度。由于传统的映射算法运行速度受到转动图像的制约,因此我们主要针对“转动图像”的算法进行改进。在改进算法中,不需要真正的实现文本图像的转动,而是从各个方向去“观察”图像,并对其像素信息进行统计操作。再将存储的像素信息用于映射操作,实现图像倾斜角度的估测。这种思想将大大的提高操作速度,使其在实际应用中具有显著的优越性。改进的映射算法所处理的对
11、象是二值化后的文本图像,即在一幅文本图像中,只有黑、白两种颜色,对应的像素值分别为0和255。在下文的说明中,我们用“白点”指代像素值为255的像素;“黑点”指代像素值为0的像素。映射算法的主要思想可以用以下两点阐述:(1) 给定一幅二值文本图像,我们从水平方向观察(水平方向上的)任意一行可以发现,不论我们把图像旋转到何种角度,黑点都是大量分散的分布在图像中,而白点则不同:只有当图像转到正确的角度时,白点是大量的成行分布的。因此,白点的水平投影值就成为了确定文本图像倾斜角度的首选指标。(2) 当文本图像被旋转到正确的角度时,水平方向上的空白行的数量会比图像旋转到其他任何角度时多,即当图像以正确
12、角度放置时,从水平方向观察到的空白行数量达到峰值。由图0-1可见。 图0-1 倾斜图像与正确图像空白行对比论文的余下部分如下展开。正文的第一章将引入投影的定义;正文的第二章介绍投影算法的具体操作过程;正文的第三章介绍改进算法的主要思想;正文的第四章将展示算法的操作结果;在正文的第五章,我们将对改进算法进行讨论;正文的第六章为本论文的结论。一 投影的定义为清楚方便的阐述论文思想,我们有必要引入投影在本文中确切的定义。在韦伯斯特字典中,投影的定义为:通过映射每一个点,将空间中的某物质重建到平面或曲面或者一条线的过程或技术。在此,为方便叙述,我们提出一种在本文使用中更加精确明了的投影概念。定义 在二
13、值图像上建立笛卡尔平面坐标系;将整个二值图像分割成最小单位像素;累加某一水平行上的白点数目,计算所得的结果即为指定行上的白点的水平投影。由于图像中除了原有的文本字符信息外,还会掺杂一些噪点,因此我们可以更进一步设定一个合适的阈值来定义空白行。也就是说,如果某一行上白点的水平投影值大于我们预先设定的阈值,那么这一行就被认为是空白行。经过灰度及图像二值化处理,彩色图像中的噪音信息被处理为黑白图像中的黑点。阈值的引入使投影算法能够包容图像中偶然出现的噪点,从而算法具有更强的鲁棒性,使其能够抵抗图像中不可避免的随机噪音信息。一个合适的阈值,可以通过对一幅图像在几个角度取不同的阈值进行实验,使实验结果中
14、白点水平投影峰值最清晰明确的那个值即可确定为最终的阈值。通过上述定义,我们可以得出,在一个给定的二值图像中,我们可以唯一确定一个水平空白行的数目。与此同时,依据上述定义,我们亦可以定义某一列中白点的垂直投影。为了更充分的理解投影的定义,通过表1-1对投影进行说明。在表1-1中,我们用模拟了一个二值化图像,其中,X代表白点,空白格代表黑点。在表1的第一列,我们给出了依据上述投影定义得出的每行的白点投影数。行投影值模拟图像3XXX2XX3XXX3XXX3XXX3XXX表1-1 模拟图像与其行投影值二 传统的投影技术(一)投影技术概论在本文对传统投影算法的实现中,我们设定,对于一个倾斜的文本二值图像
15、,其倾斜角度的范围为0到180度之间(包含0度而不包含180度)。也就是说,经过矫正后的图像可能是完全正着的,也可能是正好倒着的,而这两种情况在对图像的后续操作基本没有影响,因此,将文本图像的倾斜角度的变化域设为180度是合理的。本文计算倾斜角度的增量为1度,即结果精确到1度。对一幅给定的倾斜文本二值图像,我们依次计算其在0到180之间每个角度的水平空白行的行数,并将其储存在一个一维数组中。之后,我们在所储存的数组中找到最大值,同时也可以得到最大空白行数,即峰值对应的旋转角度。显然,这个倾斜角度就是我们所要求的图像的倾斜角度。该投影算法的输入值为一个二值化后的文本图像,输出值为算法计算得到的该
16、文本图像的倾斜角度。(二)投影算法的具体操作过程第一步:对于一个给定的文本二值图像,首先计算该图像中每一个水平行的白点的投影数。之后,我们将这些值与预先设定的阈值作比较,比阈值大的投影数值所对应的行判断为空白行。从而,对于输入的文本二值图像,我们计算出了该角度下的空白行数。第二步:储存文本图像现在的角度和其在该角度下对应的空白行数(初始角度为0度)。存储可通过一维数组来实现。之后,判断文本图像现在的角度是否大于179度,如果大于179度,则转到第四步;否则转到第三步。第三步:将替换为+1。将原始文本图像顺时针旋转至。转到第一步。第四步:在存储角度与角度对应的空白行数的一维数组中找到空白行数的最
17、大值,同时得到该空白行数对应的角度。程序结束。注:关于阈值的选取过程,我们没有将其列入主要算法中,在此处说明。若希望选取较为合适的阈值,使计算结果最为合理与明确,我们可以根据文本图像的宽(即每一行上的像素个数)来确定一个初始的阈值,以这个阈值进行如上四步的操作,根据计算结果,合理改变初始阈值的值,再以这次设定的阈值重复进行上述四步的操作。在反复的实验中,就可以选出一个使各角度下空白行数差距较为明显易观察的作为合适的阈值。(三)传统投影技术的优缺点分析1.传统投影算法的优点传统投影算法现在仍被广泛使用,其具有许多其他的倾斜矫正算法所不具有的良好特性。传统投影算法主要的优点表现为以下几点:(1)
18、投影算法的原理简单明了通过空白行数这一判断指标,即可确定输入的文本图像的倾斜角度。并且空白行数的计算也可以很方便的实现。投影算法的简明的原理,使得其具有广泛的实际应用范围。(2) 投影算法具有较强的鲁棒性由于阈值的选取,使得投影算法包容偶然出现的少量噪音,具有一定的宽泛性。偶然的噪音干扰,并不会影响计算的结果。因为在我们的算法中,判断指标为空白行数,而偶然的随机的噪音若控制在一定数量内(即噪点所占像素个数少),则噪音所在行由于阈值给予的宽泛性,仍被判断为“空白行”,除非噪音在所在水平行大量出现,以致使本来的空白行未通过预先设定的阈值检验,而被判断为“非空白行”。因此,投影算法由于阈值的设定,具
19、有较强的抗噪音能力。这使得投影算法可以在实际应用中被可靠的使用。(3) 投影算法对计算机的内存要求较低由于投影算法的旋转部分可通过PhotoShop等软件来实现,因此其主要C+程序部分即为空白行判断与统计的过程,因此算法实现容易,且不需要占用计算机大量的存储空间,这就使得投影算法在空间效率上占有一定优势。在存储效率来看,投影算法要优于霍夫变换。霍夫变换的主要思想是将X-Y平面上的点线性映射到平面上的曲线,这就要求对图像上的每一个像素点进行映射后,在另一个平面进行统计,因此其需要很大的存储空间,对计算机的内存要求较高。霍夫变换的算法较为复杂、存储空间需求大,这也使得霍夫变换这一经典算法在实际应用
20、中受到一定限制,而当操作对象为文本图像时,投影算法则很好的弥补了这一不足。由于传统的投影算法所需的存储空间只是几个一维数组,因此其对计算机的内存的要求较低,且同时这种简明的算法思想也使得其投影程序本身的运行速度很快,而使得整个操作过程消耗很多时间的则是图像的旋转过程,即上述操作步骤中的第三步。(4)投影算法对所处理的图像完整性要求不高投影算法的操作对象是文本图像,由于图像中白点的分布规律在图像的任何一部分上都可以得到体现,根据这一特点,我们知道投影算法可以对缺失的图像进行操作,也可以出于提高计算速度的目的,只对图像特征明显的一部分进行操作,这就在一定程度上降低了投影算法对所处理的图像的完整性要
21、求。投影算法对图像完整性的低要求,使得投影算法在实际应用中可以被广泛使用于处理多种文本图像。若图像较大,又对计算速度的要求较高,也可根据投影算法的这一特性,只对文本图像的某一部分进行操作,因此投影算法的处理过程有一定的灵活性。2.传统投影算法的缺点传统的投影算法具有很多优点的同时,也不可避免的具有一些缺点。传统投影算法缺点的主要来源是旋转操作。由于我们要将图像由初始位置旋转0度、1度、2度、179度后,再分别对每幅旋转后的图像进行投影计算,因此传统投影算法对旋转方法的依赖性很大,其所耗费的时间长短和结果的精确度很大程度上也取决于所选用的旋转方法。传统的投影方法中的旋转一般是由各类软件来实现的,
22、而本文中对传统投影方法的实现过程中,选用了PhotoShop作为旋转图像的工具。利用PhotoShop进行图像旋转时,会造成操作时间和结果精度方面的问题。一方面,用PhotoShop旋转的次数和每一次旋转所要花费的时间使整个投影算法的时间效率下降。这也就是说,需要将原始目标文本图像用PhotoShop分别旋转179次,再将每次旋转所得到的文本图像进行180次的投影算法计算(初始角度为0度,也需对原始图像进行投影计算),最后才能得出计算结果最大值,并得到最大值对应的角度,也就是我们所求的文本图像的倾斜角度;而另一方面,由于PhotoShop软件本身在图像旋转方面的特点也造成了旋转后的图像并非完全
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 倾斜 文本 图像 快速 矫正 方法 论文 09720

链接地址:https://www.31ppt.com/p-3995758.html