《清华方案要点》PPT课件.ppt
《《清华方案要点》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《清华方案要点》PPT课件.ppt(109页珍藏版)》请在三一办公上搜索。
1、1,清华方案要点,信息共建共享服务网引文链接和服务搜索引擎知识元数据库,2,发言提纲,清华方案的技术特点、优势和难点以知识管理和服务为起点第二次创业信息服务领域的技术进步,3,清华方案的特点,适应信息资源整合的客观需要数据库生产者向信息服务提供者演化服务领域的合理拓展迈向知识管理和开发的新高度为进一步产业化打下更宽阔的基础,4,优势分析,CNKI的信息资源和业绩(经验教训)信息化形势带来的强劲发展动力高校技术力量强势群体Cernet现有网络平台的支持可在信息技术、运作模式、技术标准等最新起点和高度上起步,减少风险,避免教训,缩短发展周期,5,难点和瓶颈,从封闭(期刊数据库)资源到开放(网络搜索
2、引擎)资源的技术难点从信息服务向知识服务的技术难点从独立经营到多赢模式的联合经营的环境因素开发新技术和建设新的信息基础结构与现有人力资源的矛盾,6,以知识管理和服务为起点第二次创业,7,知识型信息服务的必然性,信息爆炸:信息海洋和信息垃圾开发广度:浅海网和深海网开发深度:信息容器和信息内容管理层次:信息管理和知识管理信息提供:药店服务和对症处方以谁为主:系统中心和面向个人,8,信息爆炸,9,1999年世界范围静态信息生产量(单位:TB,千千兆,1012字节),10,英语表示兆以上命名法,MBmebi megabyte(106),million,1MB=1000KB 兆 GBgibi gigab
3、yte(109),billion,1GB=1000MB 1000兆 TBtebi terabyte(1012),trillion,1TB=1000GB 万亿兆兆 PB pebi petabyte(1015),1PB=1000TB 1000万亿兆 EB exbi exabyte(1018),quintillion,1EB=1000PB 万万亿兆(1021),sextillion,(1024),septillion,(1027),septillion,(1030),septillion,(1033),septillion,(1036),septillion,(10303),centillion,1
4、1,目前常用前缀及其意义,12,表示二进制数量的前缀(新建议),13,世界信息总量,全世界每年生产信息1 x 1018 2 x 1018 字节信息,大约为全世界每人250MB字节。印刷体只占0.003%,磁介质93%。Email达11,285TB。Usenet 73TB。2000年WWW公共浏览网页21亿,平均每个网页10K数据,每年新增700万网页。2001年网页将达到40亿。众多数据库以非网页形式存储7,500TB数据,包含5,500亿记录或文件。,14,数字化信息量举例,音乐作品(莫扎特):约100MB报纸(华尔街杂志):100MB/年(文本)卡片目录(美国国会图书馆):17GB广播(W
5、ABC):270GB/年(未经压缩)网络论坛(Netnews):300GB/年地区图书馆(加州大学图书馆):1.4TB(图书扫描版)Internet出版(WWW):1997年约4TB电视(CNN新闻):1GB/1小时,6TB/年(经压缩)录像带出租(Blockbuster Video):9TB科研图书馆(美国会图书馆):全部图书馆数字化20TB来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著文化制品数字化存档行动纲要。,15,9.6 million web servers as of Dec 199972.4 million
6、 web sites as of Jan 2000275 million people online as of Mar 2000800 million publicly indexable pages180 million images30%web pages are copied or mirrored1 billion hyperlinks,网络爆炸,16,网络信息资源的挑战,数量巨大No single search engine indexes more than 16%of web sitesAll search engines combined covering only 42%极
7、端异质Variable information valueVariable lengthOften containing grammatical mistakes and typosContent may be outdated,false,or unreliableMultiple data formatsMultiple languages and alphabets速度问题15,000 20,000 search queries requested per minute,17,Internet 利用量,Internet 用户:30 to 300 million in 2001Intern
8、et 流量:每 70 天翻一番电子商务:2002年1.3 万亿美元1997年PC台数销售量超过 TV,18,信息检索的问题,查找非结构信息有困难多数数据库在结构化字段上工作多数商业信息是非结构化的.报告、电子邮件、来往公函.美国商业每年产生4500亿份文件波音747文件比飞机重量还重索引是主观的索引者之间不一致,经验统计表明索引者之间仅20%相同.作者与索引者之间、检索者与用户之间不一致.信息超载信息太多,需要过滤检索结果垃圾太多,有害信息太多,19,信息检索的问题,语言问题一词多意:Bank:a river boundary or a savings and loans?DNA:microb
9、iology or Digital Equipment Corporations Network Architecture?Free rider:Economic game theory or urban transportation systems?一意多词:Blair example(p.295):trap correction,wire warp,shunt correction system,roman circle method,air truck,.Car,automobile,vehicle,sedan,horseless carriage.,20,Search Engines,
10、21,主题树(目录型网站),覆盖小,质量高 的网站,22,搜索引擎,Internet内容数据库,23,搜索引擎的问题,24,搜索引擎仅覆盖网络流量的一小部分,25,搜索引擎规模,GG=Google,FAST=FAST,AV=AltaVista,INK=Inktomi,WT=WebT,NL=Northern Light,EX=Excite,26,Spiders for Search Engines,Create a queue of pages to be explored,Choose a page,Fetch page content,extract all links,Process pa
11、ge to extract information,Add to queue,Database,Where to explore next?Depth-first:high load on serversBreath-first:favors smaller web serversBest-first:based on popularity heuristicWhat information to keep?Titles+headers vs.whole documentManual description vs.automated abstracts,27,拖曳网,搜索引擎仅在信息海洋表面上
12、拖曳,28,深海网,29,深海网,深海网比浅海网大500 倍95%深海网是公开的和可免费获取的深海网内容质量高1000+倍7,500 TB信息量目前有45,000 浅海网搜索引擎,30,知道我们所不知道的,我们应该知道什么 What we know that we should know我们知道什么 What we know that we do know我们不知道什么 What we know that we do not know别人知道什么 What we know that others know我们不知道有什么我们不知道 What we dont know that we dont
13、know,31,不知道我们所不知道的,We struggle between 1%of what we know and,1%of what we don t know,but rarely comeacross the 98%of what we don t know that we don t know.,32,“草垛找针”,已知草垛查找已知的针未知草垛查找已知的针已知草垛查找已知的针未知草垛查找未知的针一个草垛查找任何的针一个草垛查找最锋利的针一个草垛查找大部分最锋利的针一个草垛查找任何的针确认一个草垛没有针任何草垛查找有没有类似针的东西草垛出现新的针时通知草垛在哪里?有关针和草垛的任何
14、信息都有关,33,信息资源的控制成为全球性难题,信息发布具有自由性和任意性,难于控制和管理分布、分散、无序、无政府、经常变动、无限数量、包罗万象、真伪并存,资源信息和非资源信息难于驾御非规范、非结构检索查全和查准提出新的挑战多媒体、多语种、多类型信息的整合提出新的挑战跨国界数据传递和流动,带来政治、外交、文化新问题集成多种(正式和非正式等)交流方式,34,目前对付挑战的能力有限,以文本信息、显性知识为主 以非结构信息为主 以系统为中心以信息提供为目的以相对简单的信息技术开发以正面效益为衡量标准,35,知识型科技信息服务主要标志,控制信息 管理知识提供知识 以人为本,36,知识型科技信息服务(1
15、)控制信息,信息资源是一把双刃剑。信息资源一般是指有用的具有现实可用性的信息,但信息资源也包含无关、失效、虚假、错误、有害信息等“非资源”信息。它既给社会带来正面效益,也带来信息负效应。垃圾信息。奈斯比特说:“没有经过整理的信息不是我们的朋友,甚至是我们的敌人。当然更不是财富和资源。现有的信息服务把主要目标集中在发挥信息资源正面效益上,这是无可非议的,但对负面影响无能为力或视为旁业是不符合社会信息化要求的。知识型信息服务对信息资源的开发,应该把正面效应发挥到最大,而把负面效应控制到最小。,37,知识型科技信息服务(2)管理知识,知识管理是在信息管理基础上发展的,两者相互衔接。知识有显性知识和隐
16、性知识之分。隐性知识比显性知识更能激活灵感和启发创新,是一种更有价值的知识。新型信息服务,要超越显性知识,要設法獲取隐性知识。显性知识的管理来源于传统的信息管理,所用的手段与方法较信息管理更加先进和完善,是信息管理的深化与发展。显性知识管理将极大地提高企业的信息处理能力和知识处理能力,隐性知识管理则将极大地提高企业创新能力,而整个知识管理将二者相结合,将极大地增加企业的应变能力与预测能力,提高决策与管理的效率,从而增强企业竞争力。,38,知识型科技信息服务(3)提供知识,目前信息资源开发,主要是对数据和信息进行采集、编码、数字化、存贮、分类、组织、控制、加工、处理、传输、检索、计算等,通过图书
17、馆书目、联机检索、搜索引擎、网上浏览等提供信息,让用户用自己的大脑判断信息有用或有害并将信息加工、吸收、提取或评价变成知识,存在于个人脑中。现在,信息服务业可以充分利用新的信息技术,用数据仓库、数据挖掘、数据库知识发现、人工智能技术等获取信息中隐含的知识,用大型数据库、新型检索技术、智能代理、搜索引擎等存储与传播知识,用网络技术、组件技术等保证知识的充分共享。知识型信息服务的任务不仅要把信息需求者带引到信息大门,而且要帮助他们深入信息去获取能够带来时间、财富、效率 效益的知识,帮助他们走进各自的知识王国去寻找和创造新的生产力。,39,知识型科技信息服务(4)以人为本,个性化精密化专业化定制服务
18、便于再加工再开发同系统交互(可视化、语音化等)依个人选择输出结果的形式便于个人交换交流安全性、隐私、保密,40,信息系统与知识系统的异同,相同点两者均建立在信息技术基础之上两者都以网络为依托两者都由收集、处理、存储、传播、共享等过程组成信息收集知识捕获信息处理知识加工(合成、分类、整理等)信息存储知识保存信息传递知识传播信息共享知识共享两者的产品都能创造价值,41,信息系统与知识系统的异同,收集、处理、传播的对象不同:信息系统的对象是客观属性(文字、文件、报表、票据),而知识系统的对象是以人的头脑为载体,具有隐含特的知识、人的思想、技能和经验。知识系统具有创新性,而信息系统没有。对处理对象的加
19、工深度不同:信息系统主要加工为计算、合并、汇总、连接等。而知识系统是解析、分类、合成、整理、建立映射等深层处理。知识系统的加工深度远远大于信息系统。产品形态不同:信息系统主要是报告、文档、报表、总结性数据或提示性数据,而知识系统则是分析能力、MAPS、多媒体、超级链接等。知识系统的产品具有动态性,可根据需要产成不同的表现形态。产品价值取向不同:信息系统着重及时性、新颖性、针对性、准确性等,而知识系统着重创新性、科学性、经验和技巧。度量指标不同:信息系统看硬件软件投入、经济收益等,而知识系统看知识投资、知识密集度、知识挖掘的广度和深度。,42,信息系统与知识系统的内在联系,信息系统和知识系统相辅
20、相成、互相依赖、相伴而行。信息系统正在朝着解决半结构和非结构化问题的方向发展,如KWS、DSS、ESS等都具备了知识工作的支持和管理决策的功能。知识系统是对信息系统功能的进一步延伸和拓展。知识系统离不了数据库的支持,信息系统最新技术如工作流、数据仓库、数据挖掘、群体技术、共享技术等都可用于知识系统。,43,信息服务与知识服务,信息服务信息资源获取和提供提供信息产品基于标准和单一知识固定内容服务劳务服务标准服务固定资源和系统大而全系统和服务标准化事物性服务按信息服务机构流程组织,知识服务解决问题提供知识产品基于复杂综合变化知识动态连续服务增值服务个性化服务动态虚拟资源系统集成、服务集成、团队工作
21、创新性服务按用户行为过程组织,44,Knowing leads to.,Transformational Librarianship,DataInformation KnowledgeBehaviour,NormFormTransformPerform,Success,46,显性知识与隐性知识,显性知识(explicit knowledge):事实数据、常识数据库、加工精度、语义结构存取隐性知识(tacit knowledge):人脑存储的知识“零次信息”(论坛、电视会议、活页零散信息)从数据库或文本中发现或挖掘的知识M的My文件等,47,Beckman知识五个层次,48,管理知识,存储知识,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 清华方案要点 清华 方案 要点 PPT 课件
链接地址:https://www.31ppt.com/p-5548294.html