基于kinect的口语手语实时翻译系统—项目申报书.doc
《基于kinect的口语手语实时翻译系统—项目申报书.doc》由会员分享,可在线阅读,更多相关《基于kinect的口语手语实时翻译系统—项目申报书.doc(27页珍藏版)》请在三一办公上搜索。
1、附件1:序号: 编码: 第八届“挑战杯”郑州大学大学生课外学术科技作品竞赛作 品 申 报 书 作品名称: 基于Kinect的口语手语实时翻译系统 院系名称: 物 理 工 程 学 院 个人申报者姓名(集 体 名 称): ZZU-SPARK 类别: 自然科学类学术论文 哲学社会科学类社会调查报告和学术论文 科技制作 小发明创造说 明1申报者应在认真阅读此说明各项内容后按要求详细填写。2申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技制作和小发明创造)分别填写B1、B2或B3表。所有申报者可根据情况填写
2、C表。3表内项目填写时一律打印或用钢笔填写(字迹端正),此申报书可复制。4序号和编码由第八届“挑战杯” 郑州大学大学生课外学术科技作品竞赛组委会填写。5学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请以4号仿宋体打印在A4纸上,附于申报书后;学术论文及有关材料在8000字以内,社会调查报告在15000字以内(文章版面尺寸1625cm左右)。6科技制作、小发明创造类作品要有1000字以内的作品说明,并附相关的研究报告、图表、曲线、试验数据、原理结构图、外观图(照片)、鉴定证书和应用证书等,打印或粘贴到申报书后。7各院系通过初评的作品各一式两份在规定时间内报第八届“挑战
3、杯” 郑州大学竞赛指导委员会办公室(校团委综合办公室)。8作品申报书由各院(系)统一报送,同时报送电子版。 A2申报者情况(集体项目)说明:1必须由申报者本人按要求填写;2申报者代表必须是作者中学历最高者,其余作者按学历高低排列;3本表中的学籍管理部门签章视为申报者情况的确认。申报者情况姓 名王振愿性别男出生年月1993.07学 校郑州大学专业电子信息科学与技术现学历本科年级大三学制四年入学时间2012.09作品全称基于Kinect的口语手语实时翻译系统毕业论文题 目无通讯地址郑州大学物理工程学院2012级电信二班邮政编码450001办公电话15538399005常 住 地通讯地址郑州大学物理
4、工程学院2012级电信二班邮政编码450001手 机15538399005其他作者情况姓 名性别年龄学历所在单位张 旋男20本科郑州大学物理工程学院李铭涵女20本科郑州大学物理工程学院郭 桐男20本科郑州大学物理工程学院任冠兰女20本科郑州大学物理工程学院程巨磊男21本科郑州大学物理工程学院资格认定院系学籍管理部门意 见以上作者是否为2013年7月1日前正式注册在校的全日制非成人教育、非在职的的各类高等院校中国籍学生(含专科生、本科生和研究生)。是 否(部门签章) 年 月 日院系负责人或导师意 见本作品是否为课外学术科技或社会实践活动成果。 是 否 负责人签名: 年 月 日B3申报作品情况(科
5、技制作和小发明创造)说明:1必须由申报者本人填写; 2本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书; 3作品分类请按照作品发明点或创新点所在类别填报。作品全称基于kinect的口语手语实时翻译系统作品分类(B.)A机械与控制(包括机械、仪器仪表、自动化控制、工程、交通、建筑等) B信息技术 (包括计算机、电信、通讯、电子等) C数 理 (包括数学、物理、地球与空间科学等)D生命科学 (包括生物、农学、药学、医学、健康、卫生、食品等)E能源化工 (包括能源、材料、石油、化学、化工、生态、环保等)作品设计、发明的目的和基本思路设计发明目的:
6、世界各地有3.6亿的听力障碍人士,其中来自中国的听力障碍患者人数将近2100万。手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达信息。由于大部分普通人不懂得手语,使聋哑人士与普通人的沟通十分困难。为了解决这个问题,我们设计实现了一个将手语动作翻译成文字和语音的翻译器,使计算机能够理解人做出的手语,并将手语翻译成为普通人能够理解的文本或语言,为聋哑人和普通人之间的交流提供方便,以达到减少聋哑人与普通人沟通障碍的目的。此外,将手语用到人机交互中还有着巨大的学术价值和广阔的市场应用价值。基本思路:这个系统通过计算机在Visual Studio 2012平台上利用C#语言编程,程序可以完成
7、手语的录入及识别、语音录入、语音识别并转换成文字、文字输入、视频调用等。这个系统的基本思路包括一个翻译模式和一个沟通模式。翻译模式是为了展示单个词语是如何从手语形式翻译成书面形式,其中,手势动作信息采集是通过Kinect传感器对动作信息的获取技术实现,动作信息转化为编码、再将编码转化为汉字信息可以通过运用c#语言编程实现。在沟通模式中,系统使用虚拟形象来代表听力正常者打手语,这些虚拟动画主要由MikuMikuDance软件生成,这些虚拟动画就是听力正常者的代理人。最终,将这两个模式汇总在一起,做成一个功能丰富的系统。创新点、技术关键和主要技术指标创新点: 1.运行或开发能够识别人类自然动作、手
8、语和语音指令 的交互式应用程序所用到的设备为微软最先进的第二 代Kinect for Windows感应器(黑色)2.改进的DTW算法结构3.通过Microsoft Speech API实现语音识别4.文本提取匹配技术5.Avi视频无损压缩技术6.精致美观的虚拟人物动画7.简单大方的应用程序界面 8.丰富的动画数据库技术关键:1.深度图像采集处理技术2.改进的DTW算法3.语音识别技术4.文本提取匹配技术5.虚拟人物动画制作技术6.应用程序界面设计7.Avi视频无损压缩技术主要技术指标:软件语言 中 文软件性质 国内软件 软件大小203.5MB软件分类应用软件 运行环境Windows 8Win
9、dows 8.1识别精度96%硬件配置64位(x64)架构处理器i7 2.5-GHz及以上处理器内置USB 3.0总线4 GB RAMDX11图形适配器第二代Kinect For Windows感应器(黑色)作品的科学性先进性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)科学性:1.第二代Kinect感应器使用:本系统采用微软公司最新 的Kinect传感器取代原始的摄像头,获取人体骨骼的 三维坐标作为原始数据,配合算法,完成手语识别。 Kinect告别了手套识别的历史,使识别更方便,更自然。 Kinect传感器靠发射红外获取人体骨骼
10、坐标,因此克服 了光照强度对手语识别的影响,降低了算法的复杂度,提高了手语识别的稳定性和可靠性。2. 手语识别数据处理技术:本系统首先初步建立一个坐标 系,然后通过原始坐标的转换,生成了手语模板,实现 了手语的数字化与序列化。这样,可以很方便的把手语 对应的坐标录入,形成以数字的形式存储在文件中的手语模板,实现了手语的模板化,为手语识别做了充分的准备。3. 改进的DTW识别算法:该算法采用动态规划的思想,解 决了识别中语音模板长度与待测语音长度不一样的问题。同理,在手语识别中,也会存在模板序列长度和待测序列长度不一样的问题,而改进的DTW算法很好地解决了这个问题。4. 3D人物动画制作技术:本
11、系统人物动画主要由 MikuMikuDance7.39制作,生成的动画通过Avi解码器 生成质量高的Avi动画,并且人物动作设计精细,人物 形象可爱生动,画面清晰,方便与聋哑人的沟通。5. Avi视频无损压缩技术:本系统在正常运行时要首先加 载已有的手语数据库,如果手语数据库文件太大,会导致程序崩溃,所以我们使用了Avi视频无损压缩技术,通过对视频文件解码,再用Xvid编码的形式对原有手语文件进行压缩,使一个手语视频占用的空间不大于1MB。6. 系统整合技术:通过计算机在Visual Studio 2012平台上利用C#语言编程,程序可以完成手语的录入及识别、语音识别并转换成文字、文字输入、视
12、频调用等功能。先进性:1.与之前的手语识别技术相比,我们的系统利用Kinect 传感器,构造了一个体感系统,将语音与手语识别自然地转换,解决聋哑人与普通人交流困难的问题。2.与之前的人机交互技术相比,我们的系统由计算机负担 手语口语实时交互技术的绝大部分工作,为使用者提供 了良好的人机交互系统环境,简单方便,无需学习,即可使用。3.与之前的手语识别技术相比,之前的手语识别多用数据手套传输收集数据,十分不方便,并且成本很高,而我们的项目成本低,便于各种环境使用,利于推广。4.与之前的手语识别技术相比,我们的系统采用最先进的 Kinect设备第二代Kinect For Windows感应器, 其传
13、感器对图像的识别、语音阵列对语音的捕捉都十分 准确。灵敏度高,识别速率快。5.与之前的手语识别系统相比,我们的系统设计了一种直 观且便于人操作的界面。6.与之前各种手语识别系统的输出动画相比,我们所做的 手语动画制作精美、人物可爱、简洁大方、清楚明了、 便于推广和使用。作品在何时、何地、何种机构举行的评审、鉴定、评比、展示等活动中获奖及鉴定结果无作品所处阶 段(B.)A实验室阶段 B中试阶段 C生产阶段D (自填)技术转让方 式与厂家合作作品可展示的 形 式实物、产品 模型 图纸 磁盘 现场演示 图片 录像 样品使用说明及该作品的技术特点和优势,提供该作品的适应范围及推广前景的技术性说明及市场
14、分析和经济效益预测使用说明:(一)准备阶段首先在电脑上安装完成本系统应用程序,调试好所有所需硬件,打开应用程序,出现下图所示界面。(二)手语的录入首先单击手语调试按钮,进入手语调试界面,然后单击数据库按钮旁的箭头,会出现下拉列表,这时使用者可以选择想要录入的手语词汇,单击按钮,状态提示框中将会对您进行的操作进行提示,待您进入Kinect传感器视野的合适位置后,状态提示框将提示您“等待3秒,3秒后,您便可录入该手语词汇”。请注意:当前设定一秒为30帧,一个动作为32帧,请您录满32帧,再回到初始动作(双手在身体两侧、胯骨以下,数字帧数提示为0)。当您录制好一个动作之后,此时可以对刚刚录入的动作进
15、行测试,若能正常识别,则识别结果将在手语识别结果输出窗口中显示。若要对该动作重新录入,请重复之前步骤。若该手语词汇录入成功,可继续录入其他词汇,步骤与之前的步骤类似。当录入完所有的手语词汇后单击保存按钮,即可将该套手语词汇数据库保存。当再一次使用该系统时,请首先单击载入手语按钮,载入已经录入的手语词汇数据库。之后,该软件就可对载入的数据库中所包含的手语词汇进行识别。(三)日常使用时的翻译模式使用方法 日常使用该系统进行手语识别时,请首先单击正常使用按钮进入日常使用界面(如下图)。当传感器视野窗口中出现做手语者的实时图像时,便可进行手语识别,手语识别出的结果将于手语识别结果输出窗口中显示。(四)
16、日常使用时的沟通模式使用方法日常使用该系统进行文字/语音识别时,请首先单击正常使用按钮进入日常使用界面。若使用语音识别,选择文字/语音输入窗口中的,然后按住说话,语音识别结果将于文字/语音输入窗口中显示,经过计算机处理后对应词语的手语动画将于手语动画播放窗口中播放出来。若使用文字识别,选择文字/语音输入窗口中的然后在文字/语音输入窗口中输入词汇即可,经计算机处理之后,对应词语的手语动画将于手语动画播放窗口中播放。(五)常用环境下的常用语使用方法为了方便聋哑人与普通人的交流,我们制作了一系列快捷用语以节省对话双方的交流时间。本系统内置了四种环境下的常用语,包括,商场、医院、餐厅、银行,共四个场景
17、。使用该功能时,首先,找到常用语快捷界面窗口,单击常用语快捷界面按钮在常用语快捷界面中选择商场、医院、餐厅、银行四种环境,并选择该场景下的常用语,选中后,该常用语句对应的手语动画将于手语动画播放窗口中播放。注:在录入手语词汇时,等待3秒后,若双手或单只手未离开身体两侧,即数字帧数提示为0,则该手语词汇未被录入。在进行语音识别时,请在每个词语输入后进行一定的停顿,进行文字识别时,请在输入每个词汇后加一个空格,并且等待手势词语动画演示结束再进行下一个词语输入,否则手语词汇动画将播放不完整。技术特点和优势:1.功能强大、操作简便2.识别精度高3.智能化程度高4.算法完善5.系统人性化范围和推广:“基
18、于Kinect的口语手语实时翻译系统”是基于Kinect传感器的具有手语的录入及识别、语音识别并转换成文字、文字输入、视频调用等功能于一体的全方位多功能为聋哑人服务的口语手语实时翻译系统。系统主要采用改进的DTW算法、手语识别技术、文本提取匹配技术、语音识别技术、人物动画制作技术、Avi视频无损压缩技术等。本系统克服现有技术的不足,自动化程度高、价格成本低廉、性价比高,识别精度高,更方便实用。本系统可广泛应用于医院、银行、机场、餐馆等公共场所。此外,将本系统用到人机交互中还有着巨大的学术价值和广阔的市场应用价值。我们希望通过对这一项目的深入研究,为实现更加快捷、智能的人机交互打下基础,同时,将
19、Kinect技术跨平台使用,则可以应用于包括平板电脑、PC等在内的各种带有深度图像采集处理技术和人机交互界面的智能设备(比如说智能家居),应用范围显著扩大,给人们的社会生活带来极大便利。经济效益预测和市场分析: “基于Kinect的口语手语实时翻译系统”有良好的发展前景和巨大的经济效益,该系统可以很好地实现聋哑人与普通人的沟通交流,可以为聋哑人和普通人提供极大的便利,并且本系统功能丰富,简单易学。“基于Kinect的口语手语实时翻译系统”可以被广泛应用于医院、机场、餐厅、商场、超市、警察局、聋哑人学校等公共场所,投入使用率高,便于社会进步,综上所述,“基于Kinect的口语手语实时翻译系统”具
20、有很好的经济效益。另外,“基于Kinect的口语手语实时翻译系统”所服务的人口基数众多。世界各地有3.6亿的听力障碍人士,其中来自中国的听力障碍患者人数将近2100万。手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达意义。但是聋哑人士与普通人的沟通却十分困难,这个沟通障碍源于大部分人不懂得手语。手语识别技术发展到今天,手语作为人们一种重要的交流工具,包含了丰富的内容,人与人之间可以方便、直观、自然的相互理解和传递信息。近年来,随着计算机技术的发展和广泛应用,人机交互技术也因此得到了快速的发展和进步,成为了计算机视觉的一个研究热点问题。在国外,手语识别的研究开始于1982年,主要是对
21、静态手语、手指字母、手势和连续语句识别的研究和开发,以Poizner和Shantz研究程序,用来识别美国手语。1983年,数据手套的发明专利最先由Grimes在AT&T取得,并且可以实现部分简单手势的识别。1992年,Fukumoto等研制的Finger-Pointer系统,实验者不需要佩带任何辅助工具,该系统实现了一些简单的手形和手指方向的识别。1993年,Hinton和Fels研制出通过Polhemus型跟踪设备和Mark 11型数据手套,并且使用神经网络进行手势的聚类。1996年,Weng和Cui对区分性和表达性两种特征进行分析研究,将手形图像和肩胸区域提取出来,通过模板匹配法分类,得到
22、93%的识别率。2001年,Bauer等首次使用K均值算法对德国手语进行识别,由12个手势组成一个语句,识别率达80.8%。2004年,Hernandez通过模板匹配法,对200个美国手语词进行识别,识别率高达95%。2007年,Oya等使用手语和其他身体动作信息,识别美国手语,识别率超过了81%。微软、IBM 等公司也一直致力于手势识别技术的研究。最近的研究成果有:2010 年 8 月,玛雅与 teory 公司合作研发出了一种手势识别系统,该系统通过识别摄像头采集的用户手部动作来操作电视机;2010 年 5 月,麻省理工大学的计算机人工智能实验室利用让实验者带上涂有十种颜色的手套成功的解决了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 kinect 口语 手语 实时 翻译 系统 项目 申报
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2393503.html