可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt
《可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt》由会员分享,可在线阅读,更多相关《可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt(26页珍藏版)》请在三一办公上搜索。
1、可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心南方技术中心E-mail: Aug. 2007 NUGX,MBP,可持续发展OCR系统MBP,主题项目背景问题分析系统模型智能检测人工干预记录动态任务分配下一步计划,MBP,主题MBP,MBP,2000年中美启动“百万册书计划” ,定名为“中美高等教育数字图书馆”,简称CADAL 。 教育部“211”十五期间三大建设工程之一浙江大学、中科院研究生院共同牵头,构建中国高等教育数字化图书馆。,项目背景,项目启动大会2004-11-5,MBP 2000年中美启动“百万册书计划” ,定名为“中美高,MBP,国家财政“十五”投 入7000
2、万元; 美国合作方提供硬 件设备等约300万 美元和部分英文图 书资源。 16个参建单位配套 投入1400万元。,项目背景,项目验收会2006-8-3,MBP 国家财政“十五”投 项目背景项目验收会2006,MBP,项目背景,数字化进展(截止至2007年3月底)建设经费投入7000万元图书加工总量:1,225,654册已审核可发布资源:1,092,504册已发布资源:861,591册资源容量: 超过 50 TB,资源特点 学术性强,服务于教育科研 技术标准高,充分考虑资源长期保存和增值应用 数据量大,开放程度高,是各类科学研究的资源库和测试床。,MBP项目背景数字化进展(截止至2007年3月底
3、) 资源特,MBP,项目背景,网站2004年9月开通,提供服务。 古籍资源:全世界开放 民国资源:逐步向211院校开放 现代图书及其他资源:逐步向参建单位开放 截止2007年3月,CADAL网站平均日点击率15万次,下载达120GB,相当于每天 4000 多册书。,MBP项目背景网站2004年9月开通,提供服务。,主题项目背景问题分析系统模型智能检测人工干预记录动态任务分配下一步计划,MBP,主题MBP,MBP,OCR 难点,问题分析,数字化资料的核心是OCR识别。但是,没有一种OCR软件可以满足不同类型原始资料识别和数字化的需求。 OCR处理软件需要占用极大的计算资源。采用传统的方式,软件应
4、用固定安装在特定平台上,采用手工操作,一方面软硬件资源利用率很低,另一方面也带来了管理的复杂性。 项目考虑到二次开发的潜力,扫描精度统一设定为600DPI,当前通用的OCR核心都是基于300DPI的黑白图像开发,如何利用600DPI图像的冗余信息提高OCR准确率? 由于OCR软件不可能达到100%的正确率,因此需要和人工校对相配合,也需要一种方式来提供统一的操作流程支持和管理机制。同时要兼顾人工投入的可继承性。,MBPOCR 难点问题分析 数字化资料的核心是OCR识别。但,MBP,主要思路,问题分析,简单地重复人工投入是极其不经济的,创建一种可持续发展 (Sustainable Develop
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可持续发展 OCR 系统 CADAL 项目 中的 应用 管理中心 讲解 课件
链接地址:https://www.31ppt.com/p-1312438.html