医疗大数据解决方案(DOC66页).doc
《医疗大数据解决方案(DOC66页).doc》由会员分享,可在线阅读,更多相关《医疗大数据解决方案(DOC66页).doc(66页珍藏版)》请在三一办公上搜索。
1、医疗大数据 1 医疗大数据解决方案 与信息系统的耦合度为零的数据才是合格的大数据与信息系统的耦合度为零的数据才是合格的大数据 全国 97.8 万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系数据库系统不适合处理大数据。 发明专利技术 (发明申请号 201310495041.8) 医学信息的结构化存贮方法非常适合处理医疗大数据。 医疗大数据 2 目目 录录 医疗大数据解决方案 . 1 第第1章章 概要概要 . 4 1.1 名词定义 . 5 第第2章章 医疗大数据面临的挑战医疗大数据面临的挑战 . 7 2.1 医疗大数据
2、与医院信息系统之间的具有本质的差异 . 7 2.1.1 2.1.1 小问题放大万倍就会大的吓人 . 9 2.2 医疗大数据面临八大难题 . 10 2.3 国家大数据标准工程堪比“两弹一星” . 14 2.4 医疗行业的信息系统顶层设计为何难产 . 15 2.5 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 . 16 2.5.1 2.5.1 我国医疗行业每年产生多少数据 . 16 2.5.2 2.5.2 挖掘关系数据库系统所产生的医疗数据非常困难 . 17 2.5.3 2.5.3 仅患者与数据的对应关系就是一个大问题 . 18 2.6 关系数据库理论的致命伤 . 19 2.6.1 2.
3、6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据 . 19 2.6.2 2.6.2 关系数据库系统是一种完全封闭的系统:外来数据无法入住 . 22 2.6.3 2.6.3 关系数据库中的数据与数据系统密不可分 . 22 2.6.4 2.6.4 关系数据库中的数据与数据结构密不可分 . 23 2.6.5 2.6.5 关系数据库中的数据与应用程序密不可分 . 23 2.6.6 2.6.6 关系数据库中的数据一旦脱离相应的系统就成了无意义的数据. 24 2.6.7 2.6.7 关系数据库无法实现病历信息的结构化存贮 . 24 2.6.8 2.6.8 关系数据库中的数据都是“方言”,大数据
4、需要的是“普通话” . 24 2.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表. 25 2.8 大数据之梦十年后成真 . 26 2.8.1 2.8.1 信息化社会由概念到比较成熟用了 30 多年时间 . 27 2.8.2 2.8.2 千年虫问题的启示 . 27 2.8.3 2.8.3 大数据工程远比千年虫问题复杂 . 28 2.8.4 2.8.4 五年之内(2020 年前)医疗大数据只是纸上谈兵 . 29 2.9 必须开发新型的软件工具才能对医疗大数据进行高效挖掘 . 29 第第3章章 发明专利:医学信息的结构化存贮方法发明专利:医学信息的结构化存贮方法 . 30 3.1 在
5、了解医学信息的结构化存贮方法时的注意事项 . 31 3.2 医学信息的结构化存贮方法 . 32 3.3 数据的完整性是大数据的根本 . 38 3.3.1 3.3.1 大数据的策略:以适当的数据冗余而使数据易识别 . 38 3.3.2 3.3.2 一个事物的数据 . 40 3.3.3 3.3.3 事物分类 . 40 3.3.4 3.3.4 关系数据库的缺陷:关系 . 42 3.3.5 3.3.5 数据的可识别性 . 46 3.3.6 3.3.6 数据的多样性 . 48 3.3.7 3.3.7 元数据及国际元数据标准非常重要 . 48 3.3.8 3.3.8 大数据的关键:让数据自己说话 . 49
6、 3.3.9 3.3.9 大数据的策略:用数据代替程序 . 51 3.4 与信息系统的耦合度为零的数据才是合格的大数据 . 52 3.5 医学信息的结构化存贮方法与关系数据库的对比 . 55 3.6 应用医学信息的结构化存贮方法的注意事项 . 55 3.7 超大表化问题:分为多张表 . 56 3.8 关系数据库中的二维表是数据不具独立性的一个根本原因 . 56 3.9 “万能数据结构表”存放病历信息的例子 . 56 医疗大数据 3 3.10 医学信息的结构化存贮方法实现互联互通非常简单 . 58 3.11 结构化录入病历信息的例子:症状的结构化 . 58 第第4章章 独立数据库在医疗大数据方面
7、的优势独立数据库在医疗大数据方面的优势 . 61 4.1 大数据中最重要的就是查询 . 61 4.2 超大表问题 . 61 4.2.1 4.2.1 自动调整表的长度 . 62 4.2.2 4.2.2 自动查询多张表 . 62 4.3 用独立数据库实现国家医疗大数据的存贮处理 . 63 4.3.1 4.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表 . 63 4.3.2 4.3.2 疾病、症状的相关数据 . 65 医疗大数据 4 第第1章章 概要概要 关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大
8、数据时代,人们发现,对全国 97.8 万家医疗机构所产生的医疗数据进行挖掘非常困难,当前的大多数医疗信息系统都是用关系数据库系统而设计的。 用关系数据库系统所设计出的信息系统之所以难以互联互通, 孤岛问题严重,根本原因在于“异构数据”。医学信息的结构化存贮方法中的“万能数据结构表”可以存贮各种各样的数据,也可说用医学信息的结构化存贮方法所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关系数据库理论先天不足,不可能解决“异构数据”问题。 医院信息系统所处理的数据只是某家医院所产生的某些特定的数据 (可称作小数据)。医疗大数据所要处理的数据是全国 97.8 万家医疗机构所拥
9、有的数十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统由不同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。 小数据的特点是数据的类型和数据都是有限的, 在处理数据前能事先确定数据的类型。而大数据的数据特点是 “多样性 (Variety)”,在处理数据时很难先事先确定数据的类型,甚至不能确定数据的
10、类型。目前关系数据库在数据处理中占据统治地位,而关系数据库在处理数据时事先要确定数据的类型,因此,在处理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越的障碍。 医疗大数据与医院信息系统所产生的数据具有本质的差别。 现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只是处于概念阶段。大数据梦想将在 10 年后梦想成真,5 年之内,难有突破性进展。 国家医疗大数据所面临的最大难题: 当前的医疗信息系统不能适应医疗大数国家医疗大数据所面临的最大难题: 当前的医疗信息系统不能适应医疗大数医疗大数据 5 据的实际需求,需要对现有的信据的实际需求,需要对现有的信
11、息系统进行彻底的改造才能适应大数据时代的息系统进行彻底的改造才能适应大数据时代的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的!潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的! 关键词: 数据与系统的耦合度、 万能数据结构表、 独立数据库、 医疗大数据、数据的独立性、数据的完整性、数据的可识别性、事物分类。 联系人:樊梦真 136 6086 7965 QQ:269779216 1.11.1 名词定义名词定义 数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的
12、数据。大数据的数据来源于成千上万家单位的系统,因此,大数居中的数据应该是与系统的耦合度为零的数据,否则就需要很多的应用程度来解读数据,这会增加数据处理的难度、成本。 万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同一张表中存贮各种各样的数据。 独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。 数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而
13、独立地表达出某种含义。关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。 数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结医疗大数据 6 构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据的含义。 数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名现象,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只
14、是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据时代,需要通过数据的独立性、数据的完整性而确保每一个数据都是可识别的。 在医疗大数据中,各个医疗数据分别由各家医疗机构所产生、拥有。 事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。大数据时代以前的信息系统的最终用户是通过应用程序而看到各种数据,最终用户并不直接与数据库中的数据打交道,数据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一个数据库是由哪家机构所产生,数
15、据库中各表中所存贮的数据是什么等等都是非常重要的信息, 只有搞清楚这些信息, 才能正常解读各数据的真实含义。在“万能数据结构表”中,“信息系统的名称、数据库的名称、表名”是以“事物分类”的形式存贮在表中,其目的是让数据具体独立性、完整性,以此确保各数据在大数据中具有可识别性。 医疗大数据 7 第第2章章 医疗大数据面临的挑战医疗大数据面临的挑战 本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。 用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内(2020 年前)大数据难以取得根本性突破,大数据之梦十年之后才能梦想成真。
16、维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据, 要高效处理大数据必须开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系数据库中的数据的一大特点(或者说一大问题)就是“数据严重依赖于数据库系统及应用程序”,当关系数据库系统中的数据脱离了相应的数据库系统及应用程序后,这些数据基本上就成了难以阅读的无用数据。 2.12.1 医疗大数据与医院信息系统之间的具有本质的差异医疗大数据与医院信息系统之间的具有本质的差异 如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心, 这些数据的数据量一定会非常庞大, 这些数据能不能称为国家医疗大数据
17、?按维基百科对大数据的定义: “大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理的数据。”这些数据可以称为国家医疗大数据。 维基百科的定义也明确地说明了把全国各家医院全部集中起来的 “数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理”。为什么不能处理呢? 例如,患者就医时,医生非常关心患者的病史。医生能否从国家医疗大数据中心获得患者在全国任意一家医院就医时的所有病历呢?假设全国各家医院的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心, 而且医生具有获得这些数据的权限。 截至 2014 年 3 月底,全国医疗卫生机构数达 97.
18、8 万个,其中:医院 2.5 万个,基层医疗卫生机构 91.8 万个,专业公共卫生机构 3.2 万个,其他机构 0.3医疗大数据 8 万个。 全国按 2.5 万家医院计算,一家医院按 4 个信息系统计算,全国共有 10 万个医院信息系统,这些信息系统所产生的数据存贮在数千万张表中。 医疗大数据应该说是永久有用的,可用来研究人类疾病的历史变化情况。因此,国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总和,甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的医院信息系统的数据量的数万倍、数十万倍以上。 医生要想获得患者以往的病史数据, 就必须从数据千万张表中查询患者的病史
19、数据。了解关系数据库理论者都知道,如果说仅有表中的数据,没有相应的软件工具,那么,从数千万张表中查询数据,即使最优秀的程序员,在目前的技术条件下,一周的时间内肯定查不出来患者的所有病史数据。因为程序员在查询数据前,首先要搞清楚如下问题: 1、这些数据分别是哪家医院所产生的? 2、这些数据分别是什么样的数据库系统产生的? 3、这些数据分别存贮在哪些表中? 4、各张表的结构是什么? 5、表中会含有大量的代码,各个代码的含义是什么? 6、同一数据库中会有多张表,这些表之间的关系是什么? 7、各张表中所存贮的是什么数据?数据的类型是什么? 国家医疗大数据文件中含有数千万张表, 一张表详细情况说明基本上
20、要用一页复印的信息量来描述,共需数千万页复印纸才能描述清楚全部表的基本情况。 面对全国 97.8 万家医疗机构,2 万多家有一定规模的医院,数万个医院信息系统,数千万张表,程序员在一周的时间内肯定搞不清楚上述问题。 从理论上而言,只要有数据,程序员可以查询到任何需要信息,然而由于国家医疗大数据的数据量太大,数据关系太复杂,数据结构太多、数据类型太多、不标准的数据太多,结果是太难太难。 处理小数据时并未感到关系数据库有什么不足之处, 在大数据时代人们已认识到关系数据库系统不适合处理大数据。 医疗大数据 9 2.1.12.1.1 小问题放大万倍就会大的吓人小问题放大万倍就会大的吓人 国家医疗大数据
21、并不是把全国各家医院所产生的数据全部集中在一起就可国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。 目前不是没有大数据,而是有很多大数据,然而人们不能高效地对这些数据进行处理。 到目前为止, 还没有成功处理上万家医疗机构所产生的医疗大数据的成功案例。 大数据比小数据大多少倍?目前没有明确的定义, 应该说真正的大数据
22、要比小数据大一万倍以上,最少也应大一百倍以上。 大数据的大表现在:一是数据量大(是小数据“万倍以上”),二是数据类型多 (是小数据 “万倍以上” ) , 三是所涉及到的单位多 (是小数据 “万倍以上” ) ,四是所涉及到的用户多种多样(是小数据“万倍以上”),五是对数据的需求多种多样而且不确定(是小数据“万倍以上”)。 在处理大数据时,会有很多的“万倍以上”的问题。 3 岁小朋友都可以数清楚自已家里有几口人,然而全国有多少人?由于人数十分庞大,全国人口普查就成了一项十分艰巨的大工程。自有人类以来,还无人能够数百之百准确地数清楚全球在某段时间内的人数。 大家都认为当今的计算机技术已非常先进, 然
23、而时至今日, 全球、 全国的人口普查都做不到百分之百准确。我国历次人口普查都要花费大量的人力、物力。 宇宙之中有多少个星球体?谁也数不清,因为整个宇宙实在是太大了,宇宙中的星球数量实在是太多了,谁也数不清,永远也数不清。 事物的数量大到一定程度后一项非常简单的工作就会变成一项非常艰巨的大工程。 小数据所处理的数据犹如小朋友数家里的人数, 大数据所处理的数据犹如全国人口普查。 大数据的特点: 小数据中的小问题一旦放大万倍就会大的吓人! 在大数据处大数据的特点: 小数据中的小问题一旦放大万倍就会大的吓人! 在大数据处理中,会遇到数量众多的小问题。理中,会遇到数量众多的小问题。 当前的绝大多数信息系
24、统都是用关系数据库系统而建立的。 在设计数据库系医疗大数据 10 统时, 设计人员习惯于用代码来表示各种数据, 例如一些设计人员人用数字 “0”来代表女性、用“1”代表男性),有的用“M”来代表男性、“F”来代表女性。全国各行各业拥有数千万个信息系统, 其中的数千万张表中拥有人的性别这种字段。在当前的情况下,人们是用数据抽取的方法来而使性别这种字段中的数据全部转换为统一的、标准的数据,例如统一为“男”、“女”。要把全国数千万张表中的性别数据全部转换为统一的数据,就是一项非常艰巨的系统工程。 要真正建立起国家医疗大数据,要解决很多个数量十分庞大的小问题。 大数据一般比小数据大数万倍、数十万倍,小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医疗 数据 解决方案 DOC66
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1667324.html