学位论文学术不端行为检测系统.ppt
《学位论文学术不端行为检测系统.ppt》由会员分享,可在线阅读,更多相关《学位论文学术不端行为检测系统.ppt(106页珍藏版)》请在三一办公上搜索。
1、学位论文学术不端行为检测系统介绍与演示,同方知网(北京)技术有限公司科研诚信管理系统研究中心2023/6/19,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,政策的必要性,引入学术不端检测的必要性,培养良好的科研诚信对于研究生的一生至关重要如果不能从研究生培养环节遏制学术不
2、端行为,带有不端治学态度的研究生毕业后,不断涌入各级研究机构,不端行为就将形成“长江之水,滔滔不绝”,就不能从根本上扭转不端行为不断恶化的事态。,大 纲,引入学术不端行为检测的必要性与紧迫性实施学术不端检测的可行性:原理与方法介绍TMLC系统主要功能演示介绍应用推广情况介绍与用户反馈意见分析TMLC系统服务模式介绍下一步工作计划,可行性分析,资源可行性以中国学术文献网络出版总库为比对资源总库收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。拥有学术期刊7000余种,期刊全文文献2480万篇,72万篇优秀硕士学位论文,9.6万篇博士
3、学位论文;重要会议论文106万篇;报纸500多万篇;国家标准、专利、SPRINGER数据库,可行性分析(2),技术可行性CNKI自适应多阶指纹分析技术(AMLFP)TPI文本数据库加工技术KBase全文数据库管理系统SmartTextMiner知识挖掘技术NLPE中文自然语言处理技术,CNKI自适应多阶指纹分析技术()工作原理,海量比对资源库,检测文献,基于AMLFP的文献快速比对,检测结果,工作原理(2),待检测文档,支持段落、句子检测,支持超长文章:学位论文、图书专著检测。支持改写、组合等多种类型学术不端行为检测,指纹XXX-YYY-CCC-DDDD-KKK-FFFF,CNKI自适应多阶指
4、纹()特征检测速度快,准确率,召回率较高,抗干扰性强在千万量级全文比对数据中,单篇文献检测速度达到毫秒级响应,检测系统框架,文章特征库,待检测论文,重复内容,文章比对库期刊会议学位论文专利报纸图书工具书,注册文章,抄袭,伪造篡改,专家复合审查,事实数据库学者规范数据科研规范机构科研成果引文统计,Yes,No,检测指标设计,设计原则针对学位论文是超长文献的特殊性,设计了一套总指标与子指标相结合的检测评估体系。总检测指标学位论文一般篇幅较长,检测系统会自动按章节切分(无章节信息则按字数切分)。总检测指标指对论文全貌的检测描述。子检测指标对于学位论文每一章节,检测系统对每一章节均生成一套指标系数。详
5、细描述每一章节的检测情况。,总检测指标,总重合字数(CCA)总文字复制比(TTR)总文字数(TCA)疑似章节数(QCA)总章节数(TCA)首部重合文字数(HCCA)尾部重合文字数(ECCA)段落最大重复字数(MAXA)段落最小重复字数(MINA),总重合字数,学位论文一般篇幅大,少则35万字,多则十几万字,若以文字复制比来衡量一篇论文的文字重合情况,不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。,总文字复制比、总文字数,总文字复制比总文字复制比则是指学位论文中总的重合字数
6、在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。总文字数指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。,疑似章节数、总章节数,疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一切分段落为一章节)。,首部重合文字数、尾部重合文字数,首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。,段落最大重复字数、段落
7、最小重复字数,论文所有段落中,每一段落最大的段文字数比较,最大的为段落最大重复字数论文所有段落中,每一段落最大的段文字数比较,最小的为段落最小重复字数反应每一切分段落是否都有较严重的文字复制情况。,子检测指标,文字复制比(TR)重合字数(CNW)最大段长(LPL)平均段长(APL)段落数(PN)段文字比(PR)首部复制比(HR)尾部复制比(ER),文字复制比(TR),文字复制比是指论文的每一章节与比对文献重合文字在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献。,文字复制比(TR),反映该章节“抄袭”总文字数量比例。一般来说,文字复制比越高,存在学术不端行为的可能性越大
8、。,重合字数(CNW),论文每一章节与比对文献重合的总字数。不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。,最大段长(LPL),论文每一章节中,当连续文字超过一定比例时,称之为段,与比对文献重合的最大段长度即为最大段长。反映成段抄袭特征。一般连续200以上文字为抄袭段。连续的文字越长,抄袭的可能性越大。,平均段长(APL),论文每一章节中,所有段的长度的平均值即为平均段长。,段落数(PN),每一章节中,所有段的数量为段落数。平均段长和段落数反映了重合文字在文献中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。,段文字比(PR),所有段的字数之和在论文每一章节
9、中的比例为段文字比。反映抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。,首部复制比(HR),论文每一章节的前20称之为首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节开头部分出现的是综述性语言。就重要性来说,相对偏低。,尾部复制比(ER),论文每一章节的后80称之为尾部,尾部的文字复制比为尾部复制比。就重要性来说,比前部文字要高。,子检测指标(续),我们仔细查阅比较上面两部分内容,首部文献是综述他人工作,而尾部则是阐述自己的研究工作的目的和意义,这部分应是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。,检测类型划分与检测实例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学位 论文 学术 不端 行为 检测 系统
链接地址:https://www.31ppt.com/p-5257007.html