数据挖掘在中医药中应用.ppt
《数据挖掘在中医药中应用.ppt》由会员分享,可在线阅读,更多相关《数据挖掘在中医药中应用.ppt(126页珍藏版)》请在三一办公上搜索。
1、2023/10/1,1,China Academy of Chinese Medical Sciences,数据挖掘在中医药研究中的应用中医药信息研究所,数据挖掘的相关概念,数据挖掘在中医药领域中的应用,内容,课,容,内,程,2,产生,数据挖掘的产生,3,什么激发了数据挖掘?“数据爆炸”但“知识贫乏”,4,信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用,大型数据库涌现,数据库技术发展,用户不满足于数据库的查询功能,统计学,机器学习,模式识别,信息科学,数据库,可视化,数据挖掘,数据挖掘的出现是数据库技术发展的必然,借用挖掘金矿的名称,数据,知识,数据挖掘,希望利用数
2、据挖掘技术解决“数据丰富”与“知识贫乏”之间的矛盾,2023/10/1,7,数据挖掘的历史,1989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,,2010年国家自然基金资助数据挖掘研究,66项目数据挖掘项目西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究田家玮,哈尔滨医科大学中医:应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律向阳
3、,中国人民解放军第210医院 基于智能计算的中医方剂基础治法模型的构建任廷革,北京中医药大学基于数据挖掘的针灸法效应特异性基本规律及特点的研究贾春生,河北医科大学中药新药有效核心处方发现的随机对照忙发设计方法研究何丽云,中国中医科学院中医临床基础医学研究所,2023/10/1,8,2023/10/1,9,数据挖掘的概念,数据挖掘:Data Mining.数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。例如:比如:孙子说“至死地而后生”是战争模式三十六计“走为上”、
4、“空城计”也是战争模式。,2023/10/1,10,数据挖掘与其他概念,数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE)有人认为是一样的只是不同领域称呼不同数据挖掘是知识发现的过程的一部分数据挖掘与数据分析数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库数据挖掘与统计学统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定,数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为其他目的而收集好的数据。发现隐含的知识 数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,
5、从事信息的挖掘与知识的提取。,2023/10/1,11,数据挖掘的特点,关联分析分类聚类分析介绍上述功能的一些具体计算方法。,2023/10/1,12,数据挖掘的基本功能,关联分析,association analysis关联分析是发现关联规则。两个或两个以上变量的取值之间存在某种规律性,就称为关联。关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。,2023/10/1,14,请NCR公司构建数据仓库,记录销售数据每一位顾客哪一天在哪一家连锁店购买了哪些商品,啤酒与尿布,2023/10/1,15,购物篮分析:即分析哪些商品最有希望被顾客一起购买。,每逢周末与尿布一起购买最多的商
6、品是,16,啤酒!,原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,举例:沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。此结果蕴含着巨大的商业价值:,两件商品间隔最远,两件商品放在一起,啤酒,尿布,如何完成?,通过支持度和置信度高低来衡量关联的强度。什么是支持度?如何计算?什么是置信度?如何计算?,沃尔玛超市为范例,顾客买东西很多,有很多购买收据记录。收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、
7、笔记本,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,支持度()计算公式A商品和 B商品共同出现在一个收据次数总次数,2SUPPORT(面包、枕头)=33.33%6,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,置信度(confidence:AB),A商品和 B商品共同出现在一个收据次数A商品出现次数,2 SUPPORT(枕头面包)=40%5,2023/10/1,2
8、2,置信度(congfidence:BA)A商品和 B商品共同出现在一个收据次数B商品出现次数,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,2 SUPPORT(面包枕头)=100%2,频繁子集筛选-获得挖掘结果,有意义,无意义,关联分析特点,可以从大量数据中发现有趣的关联,2023/10/1,24,聚类分析,clustering将异质总体分成为同质性的类别根据数据自动产生各个类别例如:作者群的自动聚类。,2023/10/1,25,聚类如何实现:从复杂数据中提取简单的分组结构,2
9、6,根据采集的与性别相关特征信息:衣着,头发等,自动聚成若干类,2023/10/1,27,2023/10/1,相似度,聚类,是把最相似的数据聚结在一起形成类别。通常最常用的计算方式就是“欧式距离”欧式距离表示多维空间的几何距离:例如:,2023/10/1,28,欧式距离计算,2023/10/1,29,裙子x,头发x,衣着鲜艳z,欧式距离,欧式距离计算-完成相似度度量,公式:DISTANCE(A,B)=3.31 注意的是最相近的值(一样)一定是0,2023/10/1,30,计算相似度后如何聚类?,2023/10/1,31,2023/10/1,计算相似度后如何聚类?(自下而上的层次聚类法),有了具
10、体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵,2023/10/1,32,先把最相近的聚类到一起变成一簇和其他对象再进行相似度计算,在数学上,矩阵是指纵横排列的二维数据表格。matrix,两个合并在一起的簇怎么和其他对象比较?3*3的矩阵,有很多计算方法:介绍单连接:D(c1,c2)=Mind(o,O)D(,)=Mind(,),d(,)=2,2023/10/1,33,2,11,2023/10/1,34,有很多规定定义这种计算。单连接取最近值完全连接取最远值。,聚类完成,2023/10/1,35,聚类分析特点,是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连
11、总共有几类都不能确定的情况下进行分类。在中医药中应用:一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?,2023/10/1,36,分类,Classification即为按照分析对象的属性分门别类加以定义,建立类别。例如:银行贷款用户:分为高风险、中风险、低风险三类用户。如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三类用户中那一类。,2023/10/1,37,主要介绍关于分类的两种方法,贝叶斯模型决策树,2023/10/1,38,贝叶斯模型,14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球,2023/10/1,39,实例:根据
12、以往打网球的情况,看看根据新一天的天气情况,能否打网球?,目的:给出新一天的气候:看看是否打网球?贝叶斯模型利用概率的方式计算:就是在天气(晴)=YES,气温(凉爽)=YES,湿度(高)=YES,有风=YES的条件下:打网球是否为YES?,2023/10/1,40,计算过程转换14天打网球情况为概率表,14天不同天气情况下打网球的情况,2023/10/1,41,YES的概率(红色)=2/9*3/9*3/9*3/9*9/14=0.0053NO的概率(绿色)=3/5*1/5*4/5*3/5*5/14=0.0206YES+NO=1,经过归一化处理YES=20.5%,NO=79.5%,2023/10/
13、1,42,贝叶斯模型特点,所有条件变量对于分类均是有用的先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性在中医药医学中范例应用于专家系统诊断。根据症状,推断出诊断。,2023/10/1,43,决策树,决策树(decision tree)每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树例:根据表格情况形成分类树,2023/10/1,44,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,如何解读决策树信息,如果血压高,则采用药物A如果血压低,则采用药物B如果血压正常并且年龄小于等于40,则采用药物A,
14、否则采用药物B.,2023/10/1,45,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,产生疑问如何计算,节点如何划分?为什么先血压,后年龄?分裂变量的界限为什么以40岁为界限?,2023/10/1,46,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,介绍其中一个ID3算法计算决策树,14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球,2023/10/1,47,14天具体打网球情况:,48,每一个因素形成一个决策树分支,2023/10/1,49,基于天气划分决策树,天气,1:NO2:NO8:NO9:YE
15、S11:YES,3:YES7:YES12:YES13:YES,4:YES5:YES6:NO10:YES14:NO,晴,多云,雨,其他因素也形成了一个树的分支,2023/10/1,50,气温,1:NO2:NO8:YES13:YES,4:YES8:NO10:YES11:YES12:YES14:NO,5:YES6:NO7:YES9:YES,热,温暖,凉爽,有风,1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES,2:NO6:NO7:YES11:YES12YES14:NO,false,true,湿度,1:NO2:NO3:YES4:YES8:NO12:YES14:NO,5:
16、YES6:NO7:YES10:YES11:YES13:YES,高,正常,如何把多个因素合并成一个大的决策树?,天气、气温、湿度、有风这四个因素谁为起点分支?在何处分支?在何处停止?越确定的在分支,越不确定的在主干。否则到了树的支端无法做决定。但如何计算它们的确定性和不确定性?,2023/10/1,51,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,如何把小的分支合并成一棵大的决策树?,首先介绍一下信息的一个计算方法:信息熵的定义:无序性度量。(不确定性)对值的无序的情况做一个量化的测量。例:信息熵=0 信息熵=0 信息熵最大当都是yes或都是NO时无序性很差,不确定性很
17、弱,信息熵最小0当yes和no一样多时无序性很强,不确定性很强,信息熵最大,2023/10/1,52,1:NO2:NO8:NO13:NO,1:YES2:YES8:YES13:YES,1:NO2:NO8:YES13:YES,利用熵的计算方法计算决策树,越到树的主干,不确定性越大,熵越大,越到树的分支,确定性越大,熵越小以便决定YES 或NO,2023/10/1,53,熵大,熵小,确定性越大,不确定性越大,Yes和no越平均,Yes和no越一致,信息熵的计算公式,InfoC1,C2=ENTROPY(P1,P2)=-P1*LOG2P1P2*LOG2P2 C1,C2代表发生事件的不同数量 P1=C1/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中医药 应用
链接地址:https://www.31ppt.com/p-6166848.html