打印文稿识别技术研究与设计.doc
《打印文稿识别技术研究与设计.doc》由会员分享,可在线阅读,更多相关《打印文稿识别技术研究与设计.doc(16页珍藏版)》请在三一办公上搜索。
1、 毕业设计 学 生 姓 名: 学 号: 学 院、系:电子与计算机科学技术学院计算机科学与技术系专 业:软件工程设 计 题 目:打印文稿识别技术研究与设计指导教师: 2012年2月24日1绪论11研究背景和意义目前,打印文档的使用越来越广泛,而与此同时与伪造文档相关的案件也越来越多,例如伪造合同、伪造文档证据、非法传单。在法庭的审判中,需要验证这些作为证据的文档的真实性;在刑事侦查过程中,需要追踪文档的来源。因此,司法和公安部门迫切需要打印文档的取证技术,检验文档是否经过伪造,以及判断文档来自于哪一台打印机。目前我国司法部门进行文件检验时主要采用人工借助仪器的手段,针对喷墨打印机主要从墨水驱动方
2、式、墨水种类、打印字符质量、打印介质、用纸、油墨的理化性质l-3等进行种类鉴别;针对激光打印机主要利用拉曼光谱4分析打印文件字迹确定墨粉种类,从而推断打印机品牌和大致型号。这些方法存在分析仪器价格高,操作专业性强,人工操作凭经验,分析成本高,有一定的主观性等特点。实际的检验过程中,还很难做到判断文档来自于哪一台打印机。如何确定文档的打印机品牌,以及来自于哪台具体的打印机,一直是文件检验中的一个亟待解决的问题5。随着计算机科学的发展,人们逐步尝试使用图像处理和模式识别技术来解决文档检验问题。这种技术通过扫描仪将文档扫描成文档图像,然后利用图像处理技术从文档图像中提取一些能够代表打印机固有特征的特
3、征,最后使用模式识别技术判断文档的打印机来源。近年来,这种基于图像的无损被动打印取证技术16-27逐步发展起来,学者们提出了很多种方法。但是实际中情况非常复杂,对提取特征的影响因素主要包括:纸张类型的变换、打印机的老化、硒鼓中墨量变化和更换、扫描仪的不同。目前所提出的各种方法中的特征针对上述情况还并不是很稳定,检验准确率还有待进一步提高。12本文贡献在上述基于图像的无损被动打印机取证技术中,学者们提出的方法主要集中在如何从含有墨迹的连通区域中提取打印机固有特征。本文从整体页面上提取页面几何失真特征,实验表明,该特征可用于打印机来源认证。本文分别用投影变换模型和弹性变换模型来对页面几何失真进行建
4、模,提取模型的参数作为打印机固有特征。本文的主要贡献如下:(1)综述打印文件取证技术本文总结归纳了2002年以来的打印取证技术,介绍各种取证技术主要思路。目前在打印机取证技术领域,主要包含两大类技术:主动取证技术和被动取证技术。本文所研究的内容属于被动取证技术。(2)提出了利用矩和矩阵函数进行判别本文最大的贡献就是利用矩阵相关知识来取证研究。文中具体介绍通过行斜率变化规律实验发现页面几何失真现象的过程。文中分别采用了投影变换模型和弹性变换模型来模拟页面几何失真现象,并实验了两个模型在文档来源认证中的具体性能,比较了两种模型在各方面的相似和不同之处,并比较了它们各自的优缺点。13论文结构本论文各
5、章的结构组织如下:第一章为绪论,主要介绍了研究背景和意义,同时介绍了本文主要贡献。第二章为打印文档取证技术概述,主要从主动和被动两个方面进行介绍。第三章介绍如何通过矩阵知识进行相关取证研究。第四章在对全文进行总结归纳的基础上,展望了本文工作的可能发展。2打印机取证技术综述本章将打印取证技术分为主动打印取证技术和被动打印取证技术两类。主动取证技术通过嵌入外部特征实现取证;被动取证技术则利用了文档打印过程引入的固有特征。21主动打印取证技术主动取证技术向打印文档中嵌入水印信息,使文档具有视觉不可见又可供算法识别的外部特征(extrinsic siemature),从而实现打印文档的主动取证。目前主
6、要包括以下典型技术:打印机厂商在部分品牌彩色激光打印机的打印品中嵌入视觉不可见的黄色斑点阵列信息:有很多学者研究了在打印机半色调算法中嵌入视觉不可见的水印信息;而Purdue大学的Edward J Dclp团队通过改变打印机机械级参数10-15控制墨点大小和位置来嵌入视觉不可见的外部特征。以上方法和思想分述如下:(1)彩色激光打印机的黄色斑点信息激光打印机的制造商很早就考虑到其高性能的办公设备可能会给伪造文件者提供方便。于是在打印机输出文件中嵌入了可供追查文件来源的水印信息。在电子先锋(EFF,EIeclI_omc Frontier Foundation)的网站6上,报道了施乐彩色撇光打印机在
7、输出文档中嵌入规则的黄色斑点阵列,如图21所示,以此记录文档的打印机型、打印时问等信息。在文献中针对彩色激光打印机的黄点嵌入机制给予了一些实验性研究工作的报道7-9。在图2. 1中,左图为实际扫描的黄色斑点图,其尺寸要大于实际;右图为人工绘制的蓝底黄点图,用以说明斑点阵列的编码格式。 图 2.1 施乐彩色激光打印机的黄色斑点阵列及其编码格式EFF统计了18个厂商的209种型号的彩色打印机,具体如表21所示。其中141种型号含有可追踪来源的黄色斑点,57种型号不含有,剩余的11种型号未知。从中可以看出,有67的彩色激光打印机嵌入了黄色斑点阵列信息,其它没有嵌入黄色斑点阵列的打印机可能采用了其它未
8、知的技术嵌入了水印。对于含有黄色斑点的彩色打印文档,可以通过提取黄点阵列信息准确的找到其来源打印机。但是,占据市场上份额非常大的黑白激光和喷墨打印机是不可能嵌入“黄色的墨点水印的。所以这种可靠且简易的方法存在很大的局限性。 表2.1各品牌彩色激光打印机是否嵌入黄色斑点型号统计表 (2)半色调算法级水印嵌入半色调算法级水印嵌入通过调整基N)异(Screening)、差错分散(Error Diffusion)和搜索(Searching)等算法的半色调处理过程实现水印嵌入。它们的计算复杂度很高,不适合于实时打印应用10。该类方法的讨论超出了本论文的研究内容,不详细介绍。(3)打印机机械结构级水印嵌入
9、该类方法通过调整打印机机械结构的处理参数来实现水印嵌入。在研究了打印文档中可用于判断打印机来源的条带特征11的基础上,可以事先通过调整激光强度产生这种条带信号12,但是它的数据嵌入容量非常有限。为了增大数据嵌入容量,Edward JDelp团队又提出了基于边缘粗糙程度131和激光曝光调制14的改进方法,它们本质上仍然是调节激光强度嵌入条带特征。最新的研究成果是通过调节半色调图像中墨点的位置来嵌入信息10,15,它具有更好的鲁棒性和嵌入容量。22被动打印取证技术被动打印取证技术从文档中提取了能够代表打印机个体的固有特征,使用模式识别的分类技术进行训练和分类,实现追踪文档的打印机来源。221现有被
10、动打印取证技术框架为了能够深入理解打印机的固有特征,了解激光打印机的工作过程是非常必要的。激光打印过程如图22所示,共有6步:(1)感光鼓均匀充电;(2)激光扫描感光鼓,对特殊区域放电;(3)放电区域吸附墨粉;(4)感光鼓上的墨粉转印到纸张上;(5)墨粉与纸张相融合;(6)清洁感光鼓。打印机结构中的电子机械设备的不理想会导致打印输出中存在缺陷11。由于这些“缺陷”直接和打印机结构有关,所以认为是打印机的固有特征。图2.2激光打印过程框图:(A)充电(B)曝光(C)附墨(D)转印(E)融合(F)清墨为了便于大家理解,我们将通过和摄影过程做对比来解释这个六个步骤的作用。步骤作用对比摄影过程充电将感
11、光鼓表面充满电荷制造胶片感光通过激光束的扫描,在感光鼓上形成静电潜像拍照显影将带电墨粉颗粒吸附到静电潜像区,形成可见的墨粉图像冲洗底片转印将感光鼓上的墨粉图像转移到纸张上在相纸上放像定影通过加热加压将墨粉融化固定在纸张上冲洗相纸消影清除感光鼓表面的残余墨粉和电荷制造胶片的片基 表2.2打印过程和摄影过程的对比激光打印机工作原理:(1) 激光打印机的核心技术就是所谓的电子成像技术,这种技术融合了影像学与电子学的原理和技术以生成图像,核心部件是一个可以感光的感光鼓。(2) 打印机接收到计算机传来的打印内容后,将其转换为激光驱动信号,激光头发出的激光束通过一个转动的棱镜反射到充满电荷的感光鼓上,随着
12、棱镜的转动,激光束从感光鼓的一端扫描到另一端,感光鼓被扫描到的部分电荷消失,形成静电潜像,将带电的墨粉颗粒吸附到感光区域(静电潜像区域),形成可见的墨粉图像,再将墨粉转印到打印介质上,最后通过加热装置将墨粉熔化固定到打印介质上。对目前所掌握的文献进行总结归纳,对文档进行取证的过程框架如图2.3所示: 图2.3目前打印机被动取证技术的实现过程框架针对扫描得到的待取证的文档图像,主要经过预处理、对字符图像提取特征、分类/分割三个步骤实现文档的取证工作。预处理过程用于完成前期处理工作,包括图像二值化,斑点墨迹噪声的消除,字符图像分割和字符识别工作.在文献26中还使用了直方图匹配和空间校正的预处理步骤
13、来分别统一字符的灰度直方图变化范围和尺寸。对字符图像提取特征主要分为9类,如表2.2所示: 表2.3被动取证技术提取特征的分类分类/分割则针对上述提取的特征,使用SVM分类器进行分类实现文档的来源取证,或者使用区域分割的技术判断文档是否经过伪造篡改。同样可以采用其它的分类和分割方法实现类似的功能。222现有被动打印取证技术详述下面分别将这9类方法简单描述如下:(1)打印质量分析02年John Oliver16等借助于ImageXpert专业打印质量分析软硬件,将提取的打印质量特征用于打印机来源取证,具体包括:线宽度、粗糙度、拖墨度、点圆满度、周长、周围散落墨点数等特征。ImageXpert公司
14、是专门为Hp等打印机公司提供打印质量分析工具的公司,它们可以帮助打印机厂商更好的完成新型打印机的质量性能检测评价。该方法需要借助专业软硬件,扫描分辨率要求较高。(2)共生矩阵特征之前有很多学者在研究如何改进打印机的控制程序以更好的消除打印文档中包含条带现象,而05年Edward JDelp团队则利用了这种条带特征进行打印机取证。由于文本文档由较小的字符连通区域组成,提取条带存在困难,他们在05年从打印的“e”字符图像中提取了描述纹理的共生矩阵特征17。该方法实验中要求的扫描分辨率为1200dpi。Edward JDelp团队在该领域的研究最活跃,03年至今发表文献有22篇左右,其中5篇综述,7
15、篇关于提取固有特征的被动取证技术,10篇关于嵌入外部特征的主动取证技术。最近几年,该团队在嵌入外部特征的主动取证技术方面做的工作更多一些,他们与机械电子专业的团队进行合作,完成打印机内部的硬件改造。(3)灰度级特征04年Jack Tchanl8提出的特征包括:边缘锐利程度、表面粗糙度、图像对比度,要求的扫描分辨率较低,但仅实验圆点和方块图像内容的文档,并没有实验文本字符。06和08年,Thomas Breuel等提出了一些基于普通纹理和边缘描述的灰度级特征19-20,这些特征与04年Jack Tchan提出的特征有些类似,所以将其统称为“灰度级特征”。文中给出了特征具体计算公式,便于实现,而且
16、实验结果很详细。该方法所需的扫描分辨率较低,适合应用在银行的高吞吐量文档管理系统中。(4)不变矩特征06年Cyril Murie等提出不变矩特征21用于打印机来源取证。不变矩最早由MHu于1962年提出,针对图像的旋转、缩放、平移操作,这些不变矩特征值基本不发生变化。目前已有其它的矩提出,例如Legendre矩或Complex Zemike矩。作者仅观察了实验样本的Hu矩特征分布,发现它们在不同打印机之间存在可分性,而没有具体分类准确率。(5)字符图像质量评价07年孔祥维等和08年HaeYe01M1 Lee等均提出了字符图像质量评价特型22-23。从文档图像中分割得到字符图像,然后获得其高斯滤
17、波图像以及噪声图像,并在这三幅图像中或相互之间提取了字符图像质量评价特征。使用SVM分类器对每个字符图像提取的特征进行分类,然后每页文档的所有字符图像进行投票得到该页文档的分类结果。(6)字笔画周长面积等07年韩国强等在汉字识另J(OCR)-I-具包的基础上,提取识别后的字符笔画周长面积等特征24,并将其应用于打印机的来源取证。文中采用模糊分类器进行分类,并给出了10台打印机的实验结果。(7)字符间距离变换08年陈庆虎等对训练和测试文档图像进行预处理,以获得归一化的打印字符图像,并使用OCR算法对其进行识别。对训练和测试文档图像中的字符图像应用距离变换1251,计算测试文档字符图像与每类训练文
18、档字符图像的距离,与其距离最小的类将确定为该文档的打印机来源。(8)打印机失真模型08年Hany Farid等利用主成分分析算法(PCA,Principal Component Analysis)构建近似打印机失真模型26,并根据字符图像与各打印机失真模型的匹配程度来判断打印机来源。针对从文档中分割出的含相同字符的字符图像,.进行图23中预处理阶段虚线框中的直方图匹配、空间校正步骤,使得每个字符图像大小相同,然后对此字符图像集合应用PCA方法,提取字符图像均值和最大特征值对应的特征向量构成打印机失真模型。实际的打印机失真模型非常复杂,文中只是以PCA方法进行了近似。另外,文章针对一页文档是否经
19、过伪造(如二次打印)提出了一种解决思路。作者利用了图像分割中成熟的Normalized Cut分割思想,以任意两个字符的打印机模型匹配度和空间距离作为依据,将图像分割成两部分。如果分割的代价较小,则认为分割正确,分割得到的两部分分别由不同的打印机打印得到;如果分割代价较大,则认为该文档中所提取的这些字符均由同一台打印机打印得到。(9)尖齿轮痕迹特征02年Yoko Seki等发现了喷墨打印机中传动纸张的尖齿轮会在纸张上留下痕迹,称为尖齿轮痕迹27(spurmarks)。通过对尖齿轮痕迹特征的提取,来区分不同的喷墨打印机。使用红外光倾斜一定角度照射打印纸张,可以从红外照相图像中提取出尖齿轮痕迹,使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 打印 文稿 识别 技术研究 设计
链接地址:https://www.31ppt.com/p-3943816.html