欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt

    • 资源ID:1312438       资源大小:1.94MB        全文页数:26页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt

    可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心南方技术中心E-mail: Aug. 2007 NUGX,MBP,可持续发展OCR系统MBP,主题项目背景问题分析系统模型智能检测人工干预记录动态任务分配下一步计划,MBP,主题MBP,MBP,2000年中美启动“百万册书计划” ,定名为“中美高等教育数字图书馆”,简称CADAL 。 教育部“211”十五期间三大建设工程之一浙江大学、中科院研究生院共同牵头,构建中国高等教育数字化图书馆。,项目背景,项目启动大会2004-11-5,MBP 2000年中美启动“百万册书计划” ,定名为“中美高,MBP,国家财政“十五”投 入7000万元; 美国合作方提供硬 件设备等约300万 美元和部分英文图 书资源。 16个参建单位配套 投入1400万元。,项目背景,项目验收会2006-8-3,MBP 国家财政“十五”投 项目背景项目验收会2006,MBP,项目背景,数字化进展(截止至2007年3月底)建设经费投入7000万元图书加工总量:1,225,654册已审核可发布资源:1,092,504册已发布资源:861,591册资源容量: 超过 50 TB,资源特点 学术性强,服务于教育科研 技术标准高,充分考虑资源长期保存和增值应用 数据量大,开放程度高,是各类科学研究的资源库和测试床。,MBP项目背景数字化进展(截止至2007年3月底) 资源特,MBP,项目背景,网站2004年9月开通,提供服务。 古籍资源:全世界开放 民国资源:逐步向211院校开放 现代图书及其他资源:逐步向参建单位开放 截止2007年3月,CADAL网站平均日点击率15万次,下载达120GB,相当于每天 4000 多册书。,MBP项目背景网站2004年9月开通,提供服务。,主题项目背景问题分析系统模型智能检测人工干预记录动态任务分配下一步计划,MBP,主题MBP,MBP,OCR 难点,问题分析,数字化资料的核心是OCR识别。但是,没有一种OCR软件可以满足不同类型原始资料识别和数字化的需求。 OCR处理软件需要占用极大的计算资源。采用传统的方式,软件应用固定安装在特定平台上,采用手工操作,一方面软硬件资源利用率很低,另一方面也带来了管理的复杂性。 项目考虑到二次开发的潜力,扫描精度统一设定为600DPI,当前通用的OCR核心都是基于300DPI的黑白图像开发,如何利用600DPI图像的冗余信息提高OCR准确率? 由于OCR软件不可能达到100%的正确率,因此需要和人工校对相配合,也需要一种方式来提供统一的操作流程支持和管理机制。同时要兼顾人工投入的可继承性。,MBPOCR 难点问题分析 数字化资料的核心是OCR识别。但,MBP,主要思路,问题分析,简单地重复人工投入是极其不经济的,创建一种可持续发展 (Sustainable Development) 的动态OCR系统,随着新技术的进展不断提高整个百万册电子书的文本准确率,是值得研究和开发的。 对于可持续发展,我们关注的重点在于系统的开放性和可继承性。,MBP主要思路 问题分析简单地重复人工投入是极其不经济的,创,MBP,开放性,问题分析,所谓开放性,就是可以不拘于一家的OCR核心,灵活利用各家优势,针对特定类型的图书采用不同的核心;,所谓可继承,就是要保证系统的重用能力,随着核心技术的突破,系统可以不断地对百万册图书进行OCR精度提升,通过重复的流程,在甚少人工干预下获得高质量的百万册文本语料。,可继承性,MBP开放性问题分析可继承性,MBP,问题分析,OCR流程分析,书本级 版式级 行切分 字切分 识别 后处理,MBP问题分析OCR流程分析 书本级,MBP,问题分析,样本错误分析,MBP问题分析样本错误分析,MBP,问题分析,优化代价,MBP问题分析优化代价,MBP,问题分析,OCR系统重点,书本级 版式级 行切分 字切分 识别 后处理,建立一个可持续改进的OCR构架,能够方便继承已经取得的结果。 系统接口开放,使得目前市场上的OCR产品能够嵌入进来,并为将来在实现OCR方面的技术改进和突破之后再进一步改进文本质量提供可能和方便。 系统除正常的操作人员外,不宜加入大量的人工干预环节。,MBP问题分析OCR系统重点 书本级 建立一个可持续改进的,主题项目背景问题分析系统模型智能检测人工干预记录动态分配下一步计划,MBP,主题MBP,MBP,智能检测,系统分析,智能检测模块可以对初始获得的数据进行分析,判别原始识别率,当检测模块发现错误率偏高的连续文本时,会提示进行人工干预。 每个页面文件被标示为一个独立的作业,机器将持续不断地进行OCR流程,而将检测有疑义的页面记录推送到人工干预中心的处理池中(Task Pool),等待人工干预后进行处理。,MBP智能检测系统分析,MBP,人工干预记录,系统分析,有限人工干预以低成本最大限度地提高了OCR的总体质量,但为了保证开放系统的有效运行,还必须设定一个机制使人工干预的成果被不断应用而使效益最大化。 所有的人工干预痕迹被自动保存于干预记录中。 重复流程通过检索干预记录获取以前的参数,从而进行优化的作业流程。,MBP人工干预记录系统分析,MBP,系统分析,动态任务分发,MBP系统分析动态任务分发,MBP,系统分析,系统监控界面,MBP系统分析系统监控界面,MBP,系统分析,人工干預界面,MBP系统分析人工干預界面,MBP,统一OCR处理中心,MBP统一OCR处理中心,主题项目背景问题分析系统模型智能检测人工干预记录动态任务分配下一步计划,MBP,主题MBP,MBP,下一步工作,目前已经完成25万册图书导入,实现10万册图书的OCR识别。 系统由100台DELL DS430C服务器和一个8节点集群构成,在200个远程辅助节点的共同工作下,日产量为3000册图书。 我们希望在完成CADAL项目所要求的全文数据的基础上,通过系统的自主运行,不断提高电子图书的识别精度,从而实现一种根据时间推移不断提高图书可读性和可利用率的动态数字图书模型。,MBP下一步工作 目前已经完成25万册图书导入,实现10万册,MBP,下一步工作,可下载插件 任务申请 OCR识别及校对 结果整合 OCR网格应用任务分配结果分析全文语料更新及增值应用,MBP下一步工作 可下载插件,MBP,下一步工作,CADAL项目所实施的OCR工程,完全有别于传统的OCR应用。它着力于解决大数据量文本精度的持续提高,在系统结构、实现步骤、数据重用方面都提出了行之有效的方法。 我们也希望这一方案的实施,能够为其他数字图书馆建设项目提供有益的借鉴,并可以将这一系统服务于其他项目,以实现系统的可持续发展。,MBP下一步工作 CADAL项目所实施的OCR工程,完全有别,MBP,Thanks,MBPThanks,

    注意事项

    本文(可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开