欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据挖掘在中医药中应用.ppt

    • 资源ID:6166848       资源大小:2.85MB        全文页数:126页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘在中医药中应用.ppt

    2023/10/1,1,China Academy of Chinese Medical Sciences,数据挖掘在中医药研究中的应用中医药信息研究所,数据挖掘的相关概念,数据挖掘在中医药领域中的应用,内容,课,容,内,程,2,产生,数据挖掘的产生,3,什么激发了数据挖掘?“数据爆炸”但“知识贫乏”,4,信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用,大型数据库涌现,数据库技术发展,用户不满足于数据库的查询功能,统计学,机器学习,模式识别,信息科学,数据库,可视化,数据挖掘,数据挖掘的出现是数据库技术发展的必然,借用挖掘金矿的名称,数据,知识,数据挖掘,希望利用数据挖掘技术解决“数据丰富”与“知识贫乏”之间的矛盾,2023/10/1,7,数据挖掘的历史,1989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,,2010年国家自然基金资助数据挖掘研究,66项目数据挖掘项目西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究田家玮,哈尔滨医科大学中医:应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律向阳,中国人民解放军第210医院 基于智能计算的中医方剂基础治法模型的构建任廷革,北京中医药大学基于数据挖掘的针灸法效应特异性基本规律及特点的研究贾春生,河北医科大学中药新药有效核心处方发现的随机对照忙发设计方法研究何丽云,中国中医科学院中医临床基础医学研究所,2023/10/1,8,2023/10/1,9,数据挖掘的概念,数据挖掘:Data Mining.数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。例如:比如:孙子说“至死地而后生”是战争模式三十六计“走为上”、“空城计”也是战争模式。,2023/10/1,10,数据挖掘与其他概念,数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE)有人认为是一样的只是不同领域称呼不同数据挖掘是知识发现的过程的一部分数据挖掘与数据分析数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库数据挖掘与统计学统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定,数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为其他目的而收集好的数据。发现隐含的知识 数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。,2023/10/1,11,数据挖掘的特点,关联分析分类聚类分析介绍上述功能的一些具体计算方法。,2023/10/1,12,数据挖掘的基本功能,关联分析,association analysis关联分析是发现关联规则。两个或两个以上变量的取值之间存在某种规律性,就称为关联。关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。,2023/10/1,14,请NCR公司构建数据仓库,记录销售数据每一位顾客哪一天在哪一家连锁店购买了哪些商品,啤酒与尿布,2023/10/1,15,购物篮分析:即分析哪些商品最有希望被顾客一起购买。,每逢周末与尿布一起购买最多的商品是,16,啤酒!,原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,举例:沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。此结果蕴含着巨大的商业价值:,两件商品间隔最远,两件商品放在一起,啤酒,尿布,如何完成?,通过支持度和置信度高低来衡量关联的强度。什么是支持度?如何计算?什么是置信度?如何计算?,沃尔玛超市为范例,顾客买东西很多,有很多购买收据记录。收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,支持度()计算公式A商品和 B商品共同出现在一个收据次数总次数,2SUPPORT(面包、枕头)=33.33%6,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,置信度(confidence:AB),A商品和 B商品共同出现在一个收据次数A商品出现次数,2 SUPPORT(枕头面包)=40%5,2023/10/1,22,置信度(congfidence:BA)A商品和 B商品共同出现在一个收据次数B商品出现次数,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包、被子、枕头、收据4:椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本,2 SUPPORT(面包枕头)=100%2,频繁子集筛选-获得挖掘结果,有意义,无意义,关联分析特点,可以从大量数据中发现有趣的关联,2023/10/1,24,聚类分析,clustering将异质总体分成为同质性的类别根据数据自动产生各个类别例如:作者群的自动聚类。,2023/10/1,25,聚类如何实现:从复杂数据中提取简单的分组结构,26,根据采集的与性别相关特征信息:衣着,头发等,自动聚成若干类,2023/10/1,27,2023/10/1,相似度,聚类,是把最相似的数据聚结在一起形成类别。通常最常用的计算方式就是“欧式距离”欧式距离表示多维空间的几何距离:例如:,2023/10/1,28,欧式距离计算,2023/10/1,29,裙子x,头发x,衣着鲜艳z,欧式距离,欧式距离计算-完成相似度度量,公式:DISTANCE(A,B)=3.31 注意的是最相近的值(一样)一定是0,2023/10/1,30,计算相似度后如何聚类?,2023/10/1,31,2023/10/1,计算相似度后如何聚类?(自下而上的层次聚类法),有了具体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵,2023/10/1,32,先把最相近的聚类到一起变成一簇和其他对象再进行相似度计算,在数学上,矩阵是指纵横排列的二维数据表格。matrix,两个合并在一起的簇怎么和其他对象比较?3*3的矩阵,有很多计算方法:介绍单连接:D(c1,c2)=Mind(o,O)D(,)=Mind(,),d(,)=2,2023/10/1,33,2,11,2023/10/1,34,有很多规定定义这种计算。单连接取最近值完全连接取最远值。,聚类完成,2023/10/1,35,聚类分析特点,是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。在中医药中应用:一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?,2023/10/1,36,分类,Classification即为按照分析对象的属性分门别类加以定义,建立类别。例如:银行贷款用户:分为高风险、中风险、低风险三类用户。如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三类用户中那一类。,2023/10/1,37,主要介绍关于分类的两种方法,贝叶斯模型决策树,2023/10/1,38,贝叶斯模型,14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球,2023/10/1,39,实例:根据以往打网球的情况,看看根据新一天的天气情况,能否打网球?,目的:给出新一天的气候:看看是否打网球?贝叶斯模型利用概率的方式计算:就是在天气(晴)=YES,气温(凉爽)=YES,湿度(高)=YES,有风=YES的条件下:打网球是否为YES?,2023/10/1,40,计算过程转换14天打网球情况为概率表,14天不同天气情况下打网球的情况,2023/10/1,41,YES的概率(红色)=2/9*3/9*3/9*3/9*9/14=0.0053NO的概率(绿色)=3/5*1/5*4/5*3/5*5/14=0.0206YES+NO=1,经过归一化处理YES=20.5%,NO=79.5%,2023/10/1,42,贝叶斯模型特点,所有条件变量对于分类均是有用的先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性在中医药医学中范例应用于专家系统诊断。根据症状,推断出诊断。,2023/10/1,43,决策树,决策树(decision tree)每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树例:根据表格情况形成分类树,2023/10/1,44,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,如何解读决策树信息,如果血压高,则采用药物A如果血压低,则采用药物B如果血压正常并且年龄小于等于40,则采用药物A,否则采用药物B.,2023/10/1,45,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,产生疑问如何计算,节点如何划分?为什么先血压,后年龄?分裂变量的界限为什么以40岁为界限?,2023/10/1,46,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,介绍其中一个ID3算法计算决策树,14天打网球情况。14天不同天气情况下打网球的情况分类目的:根据新的一天天气,决定是否打网球,2023/10/1,47,14天具体打网球情况:,48,每一个因素形成一个决策树分支,2023/10/1,49,基于天气划分决策树,天气,1:NO2:NO8:NO9:YES11:YES,3:YES7:YES12:YES13:YES,4:YES5:YES6:NO10:YES14:NO,晴,多云,雨,其他因素也形成了一个树的分支,2023/10/1,50,气温,1:NO2:NO8:YES13:YES,4:YES8:NO10:YES11:YES12:YES14:NO,5:YES6:NO7:YES9:YES,热,温暖,凉爽,有风,1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES,2:NO6:NO7:YES11:YES12YES14:NO,false,true,湿度,1:NO2:NO3:YES4:YES8:NO12:YES14:NO,5:YES6:NO7:YES10:YES11:YES13:YES,高,正常,如何把多个因素合并成一个大的决策树?,天气、气温、湿度、有风这四个因素谁为起点分支?在何处分支?在何处停止?越确定的在分支,越不确定的在主干。否则到了树的支端无法做决定。但如何计算它们的确定性和不确定性?,2023/10/1,51,药物B,血压,年龄,药物A,药物B,药物A,高,正常,低,40,40,如何把小的分支合并成一棵大的决策树?,首先介绍一下信息的一个计算方法:信息熵的定义:无序性度量。(不确定性)对值的无序的情况做一个量化的测量。例:信息熵=0 信息熵=0 信息熵最大当都是yes或都是NO时无序性很差,不确定性很弱,信息熵最小0当yes和no一样多时无序性很强,不确定性很强,信息熵最大,2023/10/1,52,1:NO2:NO8:NO13:NO,1:YES2:YES8:YES13:YES,1:NO2:NO8:YES13:YES,利用熵的计算方法计算决策树,越到树的主干,不确定性越大,熵越大,越到树的分支,确定性越大,熵越小以便决定YES 或NO,2023/10/1,53,熵大,熵小,确定性越大,不确定性越大,Yes和no越平均,Yes和no越一致,信息熵的计算公式,InfoC1,C2=ENTROPY(P1,P2)=-P1*LOG2P1P2*LOG2P2 C1,C2代表发生事件的不同数量 P1=C1/(C1+C2)发生事件的不同概率以YES与NO为例解释:C1,代表发生yes的次数,P1,代表发生YES的概率 C2,代表发生NO的次数,P2,代表发生NO的概率,2023/10/1,54,函数名称,就像SUM一样。,InfoC1,C2=ENTROPY(P1,P2)=-P1*LOG2P1P2*LOG2P2C1,代表发生yes的次数,P1,代表发生YES的概率 C2,代表发生NO的次数,P2,代表发生NO的概率,例如:在一个节点上yes是2,no是3P1=2/5 P2=3/5Info(2,3)=-2/5*LOG2(2/5)-3/5*LOG2(3/5)=(-0.4)*(-1.32)+(-0.6)*(-0.74)=0.971位,2023/10/1,55,天气,1:NO2:NO8:NO9:YES11:YES,晴,比特,又叫Bit,是计量单位,以天气为例进行信息熵计算,2023/10/1,56,Info(晴)=Info(2,3)=0.971位Info(多云)=Info(4,0)=0.0位Info(雨)=Info(3,2)=0.971位,还是不能确定谁是主干:观点就是天气、气温、湿度、有风,谁建立了分支之后,信息的不确定性消除得越多,就当做主干。也就是看看以谁当主干,很快就达到了分支,很快信息就变得确定了。,计算天气下面建立分支后不确定性,Gain(天气)=info(天气合计)-info(晴,多云,雨)=info(9,5)-info(2,3,4,0,3,2)=info(9,5)-(info(2,3+info(4,0+info(3,2)=0.247,2023/10/1,57,不确定性消除的值有一个名词表示:信息增益gain,平均信息值,同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少,Gain(天气)=0.247位Gain(气温)=0.029位Gain(湿度)=0.152位Gain(有风)=0.048位,2023/10/1,58,选择不确定性消除最大的作为第一级主分支,天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?,2023/10/1,59,1:NO2:NO8:NO9:YES11:YES,3:YES7:YES12:YES13:YES,4:YES5:YES6:NO10:YES14:NO,气温?湿度?有风?,直接做决定,需要参考其他因素,需要参考其他因素,14天具体打网球情况:,60,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,2023/10/1,61,2023/10/1,61,1:NO2:NO8:NO9:YES11:YES,气温,1:no2:no,8:no9:yes,11:yes,热,温暖,凉爽,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,62,62,湿度,1:no2:no8:no,9:yes11:yes,高,正常,2023/10/1,63,有风,1:no8:no9:yes,2:no11:yes,无,有,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,2023/10/1,64,2023/10/1,64,1:NO2:NO8:NO9:YES11:YES,气温,湿度,有风,1:no2:no,8:no9:yes,11:yes,1:no2:no8:no,9:yes11:yes,1:no8:no9:yes,2:no11:yes,2023/10/1,65,1:NO2:NO8:NO9:YES11:YES,3:YES7:YES12:YES13:YES,4:YES5:YES6:NO10:YES14:NO,1:no2:no8:no,9:yes11:yes,4:yes5:yes10:yes,6:no14:no,最终的决策树,结果人性化,2023/10/1,66,决策树的特点,决策树一般都是自上而下的来生成的。可以完成分类任务,而且因为是树状结构,比较容易被使用者理解。,2023/10/1,67,第一步骤选择,第三步骤挖掘,第二步骤处理,第四步骤分析,2023/10/1,68,数据挖掘步骤,目标数据,预处理及变换,变换后的数据,数据挖掘算法,解释/评估,68,清理筛选,知识,第一步骤:选择,收集数据 就是进行原始需要被挖掘的数据采集。例如:做肺癌处方的数据挖掘,要采集肺癌处方的信息,或原有的患者信息中导出,形成数据子集。原始数据的采集非常费时费力,通常在费用中占相当大的比重。可以采用较小规模的数据对问题的可行性进行初步研究。,2023/10/1,69,第二步骤:处理,数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄 六十岁60 有个还分组:老年、青年、等格式处理:年龄 出生日期1950年转成61。,2023/10/1,70,第三步骤:挖掘,运用工具和算法,进行挖掘,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。例如:关联分析中常用apriori算法,算法就是一种计算方法,例如:计算一个班上有多少人:可以用加法或乘法。加法和乘法就是算法。,2023/10/1,71,第四步骤 分析,例如:预测信用卡欺诈行为。通过算法分析信用卡用户的购买习惯,根据结果认识客户的模式,并分辨出偏离模式的信息卡盗用行为。,2023/10/1,72,概念,数据挖掘在中医药领域中应用,73,二、关联分析在中医领域应用情况,中医领域及计算机领域均有深入研究,中医,计算机,中国中医科学院 南京中医药大学 湖南中医药大学 福建中医学院 北京中医药大学,浙江大学计算机科学与技术学院 厦门大学 山西医科大学 山东师范大学 南京理工大学 南方医科大学 江苏大学 河南大学 合肥工业大学 哈尔滨工程大学 广东工业大学 东北大学 北京交通大学 北京工业大学,近3年的学位论文,原始数据规范不足 挖掘领域局限性 结果评价不充分,存在问题,研究目的:丰富妇科的临床用药理论探索:中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间,三、数据挖掘在中医妇科医案中的应用,关系,收集符合要求的医案,把收集的妇科医案数据统一,把统一好的数据进行数据挖掘,把挖掘结果作一个综合分析,研 究 流 程,医 案 采 集,病种选择,医家选择,医案时间,医案内容,第一步:数据采集,参考94中医药行业标准:确定妇科常见疾病共有14个通过检索中医药信息研究所的中国中医药期刊文献数据库检出这些疾病的期刊文章发表情况,病种选择,病 种 选 择,选择了前个发表文献数最多的病种,在医案实际记录中,有的病名很模糊,故医案中信息诊断参考了国家中医药管理局1994年颁布了中华人民共和国中医药行业标准-中医病症诊断疗效标准,医 案 总 况,病种选择,医家选择,医案时间,医案内容,痛经,崩漏,不孕,闭经,经验丰富的医师,医案出版时间19722005,医案就诊时间19512003,中医诊断,中药处方,证型,症状,采集医案情况,处方,症状,证候原文采集涉及医案共2138例崩漏664例闭经408例不孕631例痛经435例期刊中医案848例,专著中医案1290例涉及医家476位,数据采集内容,围绕数据挖掘目的:寻找证-症-药关系。采集4种疾病医案中证-症-药信息,崩漏闭经不孕痛经,证型,症状,处方中药组成,确定一些纳入排出标准,例如:在本课题收录的医案中,治疗方法都是单纯的中草药内服治疗。凡含有中成药、针灸治疗、外用治疗、西药治疗、手术治疗的医案均被排除在外。这里特别要说明的是中成药治疗不予收录。辨证必须含有病性和病位内容。一些医案的辨证部分只含有病位如“肝脾为病”或只含有病性“虚”或“实”不予收录。症状除主症之外必须有两个以上症状描述,,采集医案样例,症状证型中药名称都需要规范处理,预处理内容,总则尽量贴近临床尽量忠于原意,不失或少失原意。,中药,证型,症状,数 据 预 处 理,中 药 部 分 预 处 理,名称预处理,冬术,白术,中药正异名标准表,正名是唯一的异名是唯一的,紫背金盘草,白毛夏枯草,翻背白草,管仲,天水蚁草,地膏药,毛大丁草根,白叶不翻,鹿茸草,秋牡丹根根,委陵菜,翻白草,白牛胆,正 异,正 异,正 异,正 异,野丈人,胡王使者,白头公,中华本草中的正异名循环现象,建表方式,白头翁,错别字,省略字,净制、切制对于药物性味归经改变很小,就是凡见中药名称中含有“片”、“末”、“粉”、“鲜”、“嫩”、“净”等净制、切制方法的标志用词,予以去除。例如:医案处方中见“佛手片”,直接去除“片”字,被规范成“佛手”。,炮制预处理,净制、切制,净制、切制、炮炙三种炮制方法中的炮炙法,对中药的性味归经等有很大影响,中药这部分的炮炙方法给予保留在中药炮制参考书籍中,每味药的炮制内容中有这样一个栏目处方应付,用以指导药剂师处理临床医师的处方36。例如:大黄的处方应付:处方中写大黄、川军、生军均付生大黄。写酒大黄、酒军付酒炒大黄,写熟大黄、制大黄付熟大黄,其余各随方付给。参考上述的中药处方应付,熟大黄、制大黄都合并为熟大黄。,炮炙,中 药 规 范 表(部分),从结构上规范,把证型名称规范成统一结构的主谓词组,主语部分是病位,谓语部分是病性。,结构,主谓 血瘀,证 型 部 分 预 处 理,复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝阴虚+肾阴虚,如果难以拆分的,如肝脾不和,则保留原状。,内容,复合证型,冲任,冲任失调的辨证几乎出现在所有医案中,成为一个非常强的干扰项,故把冲任失调的辨证去除,对规范后的证型的选词,一方面参考了中国中医药学主题词表、中医诊断学、中华人民共和国中医药行业标准中医病证诊断疗效标准等专业书籍;另一方面把需要规范成同一证型的用词作了频数统计,选用了一个使用频次最高的词作为规范后证型。,选词,频次高,证 型 标注 表(部分),结构,主谓 腹痛,副词,选词,频次高,症 状 部 分 预 处 理,稍,略,微,结构,副词,选词,频次高,略,微,症状描述详细程度不同,同一个腹痛,有的仅写腹痛,有的写腹刺痛,有的写小腹痛,有的写小腹刺痛,用词上深浅各不相同。需要对症状进行特殊处理,才能粗细概念均保留。,症 状 部 分 用 词 拆 分,下腹微刺痛,医案原文,拆分,下腹微刺痛,下腹,微刺痛,下,刺,微,腹,微刺,痛,规范后,腹痛下腹痛腹刺痛刺痛下腹刺痛,规范后,症 状 标 注 表(部分),591个医案涉及食欲差,但不同表达方式有84种,妇 科 医 案 数 据 库,预处理,医案原文,医案数据库,妇 科 医 案 数 据 库,痛经435例,不孕631例,闭经408例,崩漏664例,症状605个,中药754个,证型63个,妇科医案共2138例,WEKA软件 中国中医研究院周雪忠等人开发的应用软件,此软件基于新西兰维克多大学研发的智能平台WEKA。,妇 科 医 案 数 据 挖 掘,WEKA 软件主界面及运行界面,数据挖掘原理应用,同时出现白芍、大黄的方剂数1“白芍大黄”支持度33 总方剂数3 同时出现白芍、大黄的方剂数1“白芍大黄”置信度50 凡出现白芍的方剂数2 同时出现白芍、大黄的方剂数1“大黄白芍”置信度100 凡出现大黄的方剂数1,设定最小支持度50最小置信度50,支持度、置信度的设置,最小支持度最小置信度,本课题设定最小支持度5最小置信度40后进行数据挖掘再在一次挖掘结果中筛选支持度最高前10名置信度最高前10名,高频组,普 遍 挖 掘 模 式,数据挖掘,本 课 题 数 据 挖 掘 结 果,数据挖掘,合并,分类,本 课 题 挖 掘 模 式,药对,中药症状,中药证型,数 据 挖 掘 结 果,数据挖掘结果数据挖掘结果总表.doc,数 据 挖 掘 结 果 再 分 析,与传统理论比对,新鲜知识分析,药对结果分析(举例),中药症状结果分析(举例),中药证型结果分析(举例),传 统 知 识 比 对,高频药对参考药对书籍和中药配伍书籍,高频“中药症状”组高频“中药证型”组参考中药功效书籍,新 鲜 知 识 分 析,传统知识未查到的挖掘结果的再利用率,药对挖掘结果与中药频次统计结果比较表之一,药对挖掘结果与中药统计结果比较,有效结果 验证传统知识:中药高频组的符合率是70%,中药+症状高频组的符合率是39%,中药+证型高频组的符合率是100%产生新知 挖掘出一些传统理论并未论述的知识。一些用药规律在医师的就诊期间经常被使用.药物之间关系被量化表达例如仙茅+淫羊藿是结合最紧密地一对药对,几乎不单独出现,而且这种紧密结合的关系又有置信度95%这样的数值支持,传统理论和方法都无法如此定量的表达这种关系。就,结论和意义,数据挖掘体会,1,尽管似乎完成了整个数据挖掘过程,但每一个环节都其实都很值得深入,都还有很多值得探讨的2,数据采集:信息真实性,可靠性,代表性都存疑3,数据预处理:规范整齐的数据是最大的问题,目前中医药标准化程度低。4,数据挖掘:算法,借用的算法,不一定适合中医。5,结果分析:应用,2023/10/1,125,谢谢大家!,2010-7-2,

    注意事项

    本文(数据挖掘在中医药中应用.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开