面向中文电子病历的NLP关键技术研究.ppt
《面向中文电子病历的NLP关键技术研究.ppt》由会员分享,可在线阅读,更多相关《面向中文电子病历的NLP关键技术研究.ppt(39页珍藏版)》请在三一办公上搜索。
1、面向中文电子病历的NLP关键技术研究,2014年4月13日Copyrights 2014 HITAll Rights Reserved,蒋志鹏 关毅哈尔滨工业大学计算机学院xyf-,电子病历(EMR),医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文电子病历(CEMR),对患者身体状况的半结构化专业描述,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文
2、电子病历(CEMR),医疗大数据每天约800份每月约15000份每年约15万份,2014年4月13日Copyrights 2014HITAll Rights Reserved,中文电子病历(CEMR),2014年4月13日Copyrights 2014HITAll Rights Reserved,目前在CEMR方面展开的研究工作,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Righ
3、ts Reserved,基于PCTB规范进行迭代修订人机互助医生协助一致性评价,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,规范中一些重要修订 筛选、补充、细化PCTB词性标注规范 例如,“伴有视物模糊”中的“视物”提出适用于CEMR的术语切分方案 PCTB:“吃饭”不切分,“吃梨”“吃桃”切分 CEMR:“持物”“抗凝”是否切分?,以“抗凝”为例:,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,标注质量控制表1 规范修订前后主要词性歧义项分布表2 前3次迭
4、代分词和词性标注准确率及一致性,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,分词、词性标注、句法标注规范,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,标注结果 138份带有词性、句法标签的电子病历 来自神经内科和普通外科 包括出院小结和首次病程记录,语法标注规范制定,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR句法树库构建的主要困难:目前没有任何基于CEMR的标注语料各级标注均需要医生的参与不同医
5、疗机构、不同科室病历差异较大,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果分析 高精度词性标注系统,语法标注结果分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,CEMR文本语言的特点:包含大量专业术语(如“共济运动”、“脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“CT”、“MMR”)常用数字、量词和形容词表示检查结果(如“100/70mmHg”)句子结构不完整,但规律性较强频繁使用并列长句,导致句法结构趋于扁平,语法标注结果
6、分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,通用标注模型效果 词性标注 平均准确率仅为 82.35%,Fig.2a 出院小结各部分标注效果 Fig.2b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日Copyrights 2014HITAll Rights Reserved,通用标注模型效果句法分析 F1(auto pos):53.58%F1(gold pos):73.19%,Fig.3a 出院小结各部分标注效果 Fig.3b 首次病程记录各部分标注效果,语法标注结果分析,2014年4月13日Copyrights 2
7、014HITAll Rights Reserved,实验数据:训练集:56份中文电子病历调试集:14份中文电子病历实验结果:,CEMR句法树库构建,2014年4月13日Copyrights 2014 HITAll Rights Reserved,语法标注规范制定 语法标注结果及分析 高精度词性标注系统,系统处理流程,2014年4月13日Copyrights 2014HITAll Rights Reserved111,中文分词与词性标注的联合模型,2014年4月13日Copyrights 2014HITAll Rights Reserved,感知器算法,输入:,训练样本;迭代次数T,初始化:,参
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 中文 电子 病历 NLP 关键技术 研究
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5762493.html