091016cslt介绍ppt清华大学信息技术研究院语音和语言技术中心.ppt
清华大学 信息技术研究院,Center for Speech and Language Technologies(CSLT),Tsinghua Universityhttp:/,语音和语言技术中心,自强不息 厚德载物,2,大纲,师资力量辅助教学研究方向,历史沿革中心定位机构组成,近期的科研成果,历史沿革,1979年,计算机科学与技术系语音实验室,1999年,智能技术与系统国家重点实验室语音技术中心,1986年,电子工程系语音实验室,SPLab,CST,1994年,电子工程系语音芯片研发组,CSLT,2003年,清华信息科学技术国家实验室计算机与人工智能研究部,2007年,2003年,信息技术研究院FIT中心,4,中心定位,面向应用推进创新突出重点厚积薄发,5,机构组成,6,师资力量,首席科学家张 中国科学院院士主任郑 方 研究员副主任徐明星 副教授、夏云庆 副研究员主任助理邬晓钧 博士教师队伍教授/研究员/博导:1名副教授/副研究员:6名讲师/助理研究员:2名,7,顾问委员会Victor Zue(MIT,IEEE Fellow,NAE member)B.-H.(Fred)Juang(GeorgiaTech,IEEE Fellow,NAE member)William Byrne(Cambridge)Dan Jurafsky(Stanford)Richard Stern(CMU)方棣棠(清华大学计算机科学与技术系)吴文虎(清华大学计算机科学与技术系)刘润生(清华大学电子工程系)客座研究员Pascale Fung(香港科技大学),8,辅助教学,本科生课程:信号处理原理、数学与工程应用、程序设计基础、C程序设计与训练研究生课程:语音数字信号处理、语音信号处理、自然语言处理(英文授课)、概率图模型理论与应用指导清华大学ACM竞赛代表队,9,已培养(88名):博士后:3名博士生:22名硕士生:63名正在培养(32名):博士生:11名硕士生:21名,10,近期学生的各类获奖优秀/优良毕业生(牟晓隆 1996,11,研究方向,12,语音识别、音频处理与嵌入式系统声纹辨认和确认自然语言处理标准化与资源建设,13,语音识别、音频处理与嵌入式系统,大词汇连续语音识别技术带方言背景的语音识别技术随意发音的语音识别技术音频检索嵌入式语音识别技术,14,大词汇连续语音识别技术,非特定人大词汇连续语音识别技术最具挑战性以听写机应用研究为背景,应用前景广阔研究内容涵盖了声学模型和语言模型,体现综合研究实力CSLT在连续语音识别技术研究方面具有较好的基础积累了1,000多小时的语音库研制成功基于中文拼音理解的语言模型研制成功了听写机原型系统,实现了将普通话朗读的语音转变为文本内容,15,带方言背景的语音识别技术,面向中国方言众多但以普通话为主要交流语言的需求;是语音识别产业化应用必须解决的核心问题之一;CSLT以各种带口音/方言背景(不是方言)的普通话识别为重点研究方向;构建一个能同时支持多种口音/方言背景和普通话输入的识别器,通过相应的开发数据和方法,可方便地扩展到其他语言或方言此项目部分得到美国Natural Science Foundation、Sony公司和Nokia公司的资助。,16,随意发音的语音识别技术,近年的研究重点和热点;面向产业应用和用户的实际需求以对话语音、电话交互语音、讲座语音等为重点研究方向;相对于传统的朗读语音识别,难度更大,挑战更高需要联合声学层,字典层,语言模型层,识别器层和超音段特征层综合进行处理CSLT参与美国JHU workshop,并得到美国Natural Science Foundation资助;,17,音频检索,基于内容的音频检索使用关键词语音识别技术,在语音流中检索包含关键词的音频内容基于音频片断的音频检索同源音频检索非同源音频检索在研项目IBM“Large Scale Query by Humming System”广播电台音频资源库管理系统,18,嵌入式语音识别技术,基于连接词的语音识别技术已经相对成熟识别率可以达到99%以上程序容易移植到迁入式系统对计算能力和硬件内存资源要求不高,成本低开发成功专用的语音识别集成电路芯片低功耗语音处理专用SOC芯片设计 开发研制成功嵌入式语音识别系统基于ARM9 WinCE5.0的嵌入式系统的语音识别系统基于TMS320VC5509 DSP的嵌入式语音识别系统,19,各类语音识别软件,1998,汉语语音听写机,1999,关键词识别和语音命令,20,语言学习软件,1997,大嘴英语,1998,随心所欲说英语,1999,汉语学习,21,嵌入式系统,1997,快译通,2005,PPC上的语音拨号,2003,嵌入式语音识别芯片,22,声纹辨认和确认,声纹识别的应用领域声纹辨认(Identification),N1声纹确认(Verification),11声纹识别的特点网络应用所特有的不可接触的特点,以及声纹特征容易被获取(甚至可能是唯一可获取的)、其采集易被用户接受、所需设备成本低廉、语音可蕴涵说话人真实意图等特点,使其可以广泛地应用于公共安全、国防安全、反恐防恐、出入境控制、金融交易、电子商务,以及个性化服务等领域。声纹识别研究重点噪音鲁棒性、跨信道鲁棒性、多说话人鲁棒性、短语音鲁棒性、防假冒鲁棒性、情感鲁棒性等。,23,功能强大的VPR4.0开发软件包,VPR4.0核心模块示意图,24,2004,公安部鉴定,2008,北京市科技计划项目,25,由刑警学院、得意公司(d-Ear)、语音技术中心(CST,即CSLT的前身之一)联合承担的“司法语音自动分析和鉴别系统的研制”,于2004年5月29日通过了公安部科技成果鉴定会,该项技术“是一项创新的、国内领先的研究成果”。CST与d-Ear联合申报的“通用声纹识别身份认证系统引擎的研制”项目2005年被北京市科委批准列入北京市科技计划项目,并于2008年2月28日通过了验收。“该课题完成了任务书中规定的各项考核指标,创新性强,达到了国际先进水平,具有广泛的应用前景。”,26,2006,鹦鹉学舌,2007,声纹护照,27,自然语言处理,研究内容:面向中文信息处理的核心技术探索和基础资源开发,逐步建成支撑汉语文本自动分析和内容理解的语言资源和计算处理平台。面向大规模web动态语言文本,采取统计和浅层语言分析相结合的机器学习方法,研制基于语义概念的智能信息检索系统。现有的国家项目:融合多种语言资源的汉语语义内容计算研究,国家863计划(2007AA01Z173),2008年2010年;搭配驱动意见挖掘,国家自然科学基金(60703051),2008年2010年。,28,文本挖掘,研究内容:文本内涵分析:文本内涵特征提取和向量空间表示,基于机器学习的文本内涵分析博客文本挖掘:文本主题挖掘,文本情感挖掘,文本观点倾向性挖掘博客舆情分析:博客热点话题跟踪,博客敏感信息检测,博客情感检测,博客网络舆情分析,博客社会网络分析应用成果:数码产品和服务业评价挖掘和搜索音乐智能搜索和推荐博客舆情分析和博客社会网络挖掘,29,智能搜索,研究内容:基于自然语言理解技术,集成了基于主题森林的对话管理技术,文本自动分析、分类和索引技术,用户输入容错理解技术 集成化开发环境,使得开发人员可以快速、方便地开发面向“垂直搜索/智能信息检索”的系统 应用成果:在旅游、酒店、票务、招聘、租房、歌曲、汽车、金融以及电子产品等领域提供快速、准确地智能信息检索服务,30,语义计算,汉语句子的句法块自动分析工具可针对经过切分和词性标注处理的汉语句子,自动分析出其中双层次的句法块边界和句法标记信息 汉语句子的事件目标动词自动义项排歧工具可自动确定这些目标动词反映的客观事件内容和相应的语义角色框架信息 汉语句子的语义块自动识别工具根据上面确定的事件目标动词语义框架信息,分析确定与该目标动词相关联的各个句法块的语义角色标记,得到句子的完整事件内容描述 汉语段落的事件关系网络分析工具利用上面工具识别出的各个句子的事件内容描述,进行基于情境网络和语义公理的知识推理,建立段落中各个事件及其描述单元之间的内在联系,形成局部事件关系网络,据此可以完成对段落中描述的各个事件内容的初步理解,31,对话系统,1999,校园导航,2002,航班订票,2004,对话系统集成开发环境,32,Location-Centered Services:多领域、多模态,2009,搜多多综合智能信息服务平台(已在广州全面上线),33,文本挖掘系统,2006,电子产品评价搜索,2008,歌曲搜索与推荐,34,标准化与资源建设,关注语音和语言技术领域的标准化动态,积极参与并推动相关标准的制修订与实施。作为中文语音交互技术标准工作组成员,负责制定原国家信产部自动声纹识别(说话人识别)技术规范行业标准,并已颁布;参与语音识别和语音合成标准的制定。负责全国安全防范报警系统标准化技术委员会人体生物特征识别应用分技术委员会(SAC/TC100/SC2)相关生物特征识别应用标准的制修订工作。,语音标准工作组研讨会在清华召开,35,建设并管理多种语音和语言资源,为语音技术和语言技术 的研发提供支持。发起建立了国际中文语言资源联盟(CCC,Chinese Corpus Consortium,http:/www.CCCForum.org),与国内外知名大学、研究机构、企业等完成了面向语音和语言、音频和视频等数据库资源,提供数据资源,创造数据资源的共享平台,促进中文语音语言技术的发展。与美国约翰霍普金斯大学合作,建立了全球第一套完成的中文自发式语音数据库和标注系统,及面向语音应用的汉语吴方言语音、文本和字典资源。,CCC年会在清华召开,36,由CST和d-Ear等共同起草的信息产业行业标准自动声纹识别(说话人识别)技术规范标准,已于2008年3月10日正式颁布,SJ/T 11380-2008。这是我国第一个关于“声纹识别”的标准。2006年12月25日,国家标准化管理委员会200695号文件批准公安部负责筹建“全国安全防范报警系统标准化技术委员会人体生物特征识别应用分技术委员会(SAC/TC100/SC2),CSLT作为主要起草单位参与标准制修订工作。,37,近期的科研成果,汉语文-语转换系统 TH-Speech,电子部科技进步二等奖多媒体开发系统TH-Media的研制与应用,国家教委科技进步二等奖语音命令控制器,北京市科学技术进步奖二等奖司法语音自动分析和鉴别系统,公安部科学技术三等奖拥有近20项发明专利和实用新型专利,http:/,谢谢!,自强不息 厚德载物,