成果鉴定汇报提纲.ppt
成果鉴定汇报提纲2003年1月26日,基于知识元知识表示体系的结构化古代本草文献据库,一、目的意义,1、古代本草文献数据库建设是中医学实现现代化的重要需求,是继承发展中医药学的一项基础性和公益性工作;2、全部的本草文献数字化,改变了文献信息资源的存贮、管理、传播和使用的方式,使古文献这一信息资源得到更有效利用,为知识获取和创新营造一个良好环境;3、通过本草数据库的建设,带动中药产业的发展,并通过知识的有效传播,关联到相关行业,从而产生较大的社会效益和经济效益。,二、课题研究的关键问题,现代化的计算机与信息技术为古文献的开发利用提供了新方法和新技术,但是由于古文献所具有的复杂性和特殊性,长期以来,计算机在这一领域的应用面临很大困难。传统文献型数据的全文检索、关键字检索不能够满足用户对古文献知识获取的需求,其关键问题主要在于没有适合于古文献的知识表示方法以及文献结构化处理技术。本课题在研究分析了古代本草文献知识结构的基础上,提出了以知识元为核心的知识表示体系,建立了结构化的古代本草文献数据库。,三、研究思路,1、对古代本草文献进行调查收集整理;2、对古代本草文献的知识结构如聚类、模块、层次以及隐含的知识命题等现象进行分析;3、构建以属性词(语义成分)、知识元、知识包、知识体为核心的知识表示体系;4、研究制定古代本草文献知识的结构化技术方案,对古代本草文献进行解析标引;5、在知识元知识表示体系的基础上,建立基于知识服务的结构化古代本草文献数据库。,四、主要工作内容与实施步骤,1、古籍调查收集整理此过程是保证数据库品质的重要环节。(1)对本草文献进行调查收集;(2)运用传统文献研究方法对文献进行整理;(3)选定版本与校本,对文献中的脱、讹、衍、倒等问题进行校勘,撰写校勘记、校勘说明。,2、文档解析标引,此过程是建立结构化文献数据库的关键技术。(1)在以知识元知识表示体系的基础上,研究编制用于文档标引的标准技术文件,如“知识表示体系若干术语定义”“文献解析与解析标识方法”等7种技术文件;(2)由领域专家对文献实施解析标引。解析包括:对知识元、知识体、属性词的理解分析;标引包括:对知识元、知识体、属性词等的标注,最终形成结构化文档。,解析标引方法举例:,如:玉楸药解:DY(红豆蔻)Y红豆蔻$Z,。ZZZZZZ,亦与草豆寇无异,而力量稍健,内瘀极重者宜之。ZZ,候上热不作而用之。ZZZZZD$,3、数据校验与入库,1、标引后的文档,经校验后入库。数据库管理系统使用清华同方自主研发的中文全文检索服务器TPI3.5;2、数据校验使用自主研制的“文档分析工具”完成;3、校验后的文档分别进入5个库:MedicalBook、MedicalBody、MedicalData、MedicalPack、MedicalWord;4、2002年2月至今共入库文献100种。,五、成果的创新点,1、古代本草文献知识表示体系的建立(1)知识表示是研究知识从自然记载形式过渡到适合计算机处理的表示形式,在此基础上实现对知识的处理(包括知识的存储、推理与获取等);(2)中医药古代文献中的知识高度复杂,通常存在不完全性、不确定性、模糊性等,这些给知识的表示与处理带来很大困难。课题组在分析古代本草文献知识结构的基础上,提出了以知识元为核心的知识表示体系。,基于知识元的知识表示体系图示,文献,知识结构分析,聚类模块层次概念语义关联,表示为,属知知知性识识识词元包体,本体,2、基于知识服务的本草文献数据库的建立,知识服务要求数据库应能简捷而系统地提供知识和针对性地解决用户提出的问题;(1)基于知识元的全文检索:检索结果是与某个查询词相关的知识元与知识体;(2)基于知识元的语义检索:检索结果是与某个查询语词相关的知识元与知识体;(3)基于知识元的知识关联检索:通过对知识元关联规则的发现,形成文献之间、同类知识之间的关联检索。,五、成果构成,1、基于知识元的古代本草文献知识表示体系;2、100种古代本草文献的结构化数据库,数据量达到2000万汉字;3、基于知识服务的数据库管理系统。,数据库演示,语义检索 初级检索 高级检索国家科学技术部中医药科技信息数据库古代本草文献数据库项目,谢谢各位!,中医药科技信息数据库古代本草文献数据库课题组2003年1月26日,