音响技术与家庭院影七.ppt
《音响技术与家庭院影七.ppt》由会员分享,可在线阅读,更多相关《音响技术与家庭院影七.ppt(97页珍藏版)》请在三一办公上搜索。
1、音响技术与家庭影院(七),一 三 五 七 周上课(地点 西区教室)二 四 六周 实验(地点 东四 321)第八周 上机测试(地点 东四 325)冬学期作业(论文和歌曲)上交截止时间为(第七周周五前)。第八周测试 安排周一 周二(周一上课班级)周二 周三(周二上课班级)周四 周五(周三上课班级),1.人头录音2.Hi,Siri 3.电子人声合成技术及Vocaloid2 4.3D实现的方式5.云电视,人头录音,3d录音又称为人头录音,是一种创新的录音方式,可以逼真还原声音在实际环境中的声音。也称仿真人头录音是一种双路立体声录音(Binaural recording)的录音方式,它使得人可以通过聆听
2、耳机来定位声源,从而感受到真实的声场感。,传统录音技术,普通立体声的制作时,一般左右声道的话筒彼此相距几米甚至十几米。而相距如此远的立体声信号,如果使用耳机欣赏。其结果即是音场的大部分被挤压在听者头中,俗称头中效应(In Head Effect)。因此,普通立体声通过耳机播放时往往使欣赏者对音场感受不自然。,头部相关传输函数(HRTF),人头录音使用是有一定的限制,只能使用耳机时候才能体验到人头录音的真正效果,而且类似人头应用在游戏中也是有不少。人头录音是一种更先进的录音技术。其目的是用耳机时把虚拟的声音变的更加真实。人的耳廓、耳道、人的头盖骨、肩部等对声波的折射、绕射和衍射,都会对声音产生一
3、定的影响,在声学上,用HRTF,即“头部相关传输函数”来描述这种影响。正是由于HRTF的影响,人的大脑能根据经验判断出声音发出的方位和距离。人即使蒙上眼睛也能判断声音发出的方向和距离,这就是大脑根据HRTF影响的经验做出的判断。,HRTF,听觉的空间感受能力,来自于方向听觉和距离听觉的综合效应。双耳对水平面信号的方向感知差异具有决定意义对于垂直面的方向感和表现为与声入射角度相关的含有特定方向信息的声音分量使某些频段得以增强而引起的音色变化,并且与头部和耳部的绕射而产生的相位干涉状况的变异有关。对于距离感知而言,音量、音色、直达声和扩散声之比具有决定作用。当一个声源,处于水平听觉平面的中点之外,
4、对双耳来说,不仅会产生最大可达0.6ms的时间差,而且还会形成与频率相关的强度差,并由此而引起两耳的音色差。对于语言频谱来说,强度差可达约7dB,此量值对于音乐亦有效。此强度差的影响与其相应的瞬时频谱有关。在一般情况下,对方向感知来说,时间差和强度差同时起作用。,HRTF,而距离听觉与垂直平面的听觉相比较,在很大程度上依赖于听觉的早期经验。在室外和在声源的近区,因为有头部的绕射现象而产生频谱的线性畸变,在大约3-15m的范围内,声级将随着每次距离的加倍,产生与之相应的4-6dB的衰减,这是判断距离的重要依据,距离再大时,由于空气吸收而造成的高频衰减,起着重要的作用。1在声音传播至人耳的过程中,
5、人的耳廓、耳道、人的头盖骨、肩部等对声波的折射、绕射和衍射,都会对声音人头录音技术造成一定影响。在声学上,用HRTF,即“头部相关传输函数”来描述这种影响。正是由于HRTF的影响,人的大脑能根据经验判断出声音发出的方位和距离。人即使蒙上眼睛也能判断声音发出的方向和距离,这就是大脑根据HRTF影响的经验做出的判断。,而一般的录音技术没有考虑到HRTF的影响,所以在戴上耳机听音乐会感觉到音场不足,甚至是无法确定方位等等的情况。针对这些问题使用一种仿真人头的双声道录音方式进行解决。根据HRTF使用仿真人头录音可以达到一个逼真还远人本身一个听觉环境。,人头录音的回放对于设备来说并没有特别的要求,但是要
6、真正感受到人头录音说带来的逼真效果就必须使用耳机,如果是使用音箱就不能达到回放的真正效果。而在耳机选择方面当然越好的耳机出来的效果越好,但是如果使用入耳式的隔音耳机就可以达到一个比较好的回放环境,效果就更加好了,HRTF函数滤波器示意图,如何实现人头录音,人头录音顾名思义就是使用人头来录音,使用人头录音不是使用真人的人头而是使用一个仿真的人头进行双声道录音。仿真人头录音方式就是把两个微型全指向性话筒安置在一个与真人头几乎一模一样的假人头的耳道内(接近人耳鼓膜的位置),模拟人耳听到声音的整个过程。这个假人头有耳廓、耳道、头盖骨、头发和肩膀,甚至皮肤和骨头也是采用和人体最为接近的材料制造的。这一切
7、都为了尽可能真实地模拟人耳在听到声音时所受到的一切HRTF的影响。,仿真人头录音方式,简单地说,仿真人头录音方式就是把两个微型全指向性话筒安置在一个与真人头几乎一模一样的假人头的耳道内(接近人耳鼓膜的位置),模拟人耳听到声音的整个过程。这个假人头有耳廓、耳道、头盖骨、头发和肩膀,甚至皮肤和骨头也是采用和人体最为接近的材料制造的。这一切都为了一个目的:尽可能真实地模拟人耳在听到声音时所受到的一切HRTF的影响。这样两个话筒录制到的信号应该说就相当于一个在假人头所在位置的真人的双耳所听到的声音。这个双声道的信号不能加任何后期处理(否则就会破坏“模拟真人头”的真实性),直接灌录到唱片上。只要用耳机欣
8、赏这张唱片,就能几乎完美地将录音场所的音场(360度)还原出来,好像听者就处在录音场所中似的,因为所有的HRTF都保存在了唱片上,被耳机重放出来。显然,用喇叭放这张唱片也会有不错的立体声效果,但绝不能跟耳机相比。因为在喇叭播放的过程中,听者又受到了一次HRTF的影响,干扰了唱片中原有的原始HRTF信息。,优缺点,优点:只需使用一套立体声耳机就可以营造出令人信服的360度声场效果,这是相对于传统录音方式无法比拟优势。缺点:1.佩戴者在录音的过程中不能佩戴监听耳机、不能接受可听见的指令、不能转向或是倾斜他们的头部,还要注意不要在录音的时候咳嗽或者清喉。2.只能使用立体声耳机聆听才能达到预期效果,喇
9、叭扬声器是不行的。3.最终效果依赖于录音员和听众的头部的声学属性的相似度目前还没有简单有效的办法能解决这个问题。,微型入耳式麦克风,随着便携式数字录音机(使用数字音频磁带和MD碟格式)变得越来越流行,市场上也开始出现像Sound Professionals SP-TFB-2这样的微型入耳式麦克风,将他们放入耳内就可以轻松录制自己的“人头录音”。自从这些设备变得更像耳塞,它们可以被隐蔽地戴着录制音乐会现场、实况,或是录制混入传统录音的逼真三维环境音音效(比如鸟叫、交通噪音或是人群的声音)。,电子人声合成技术及Vocaloid2,随着MIDI等一系列技术的出现,电子音乐已经得到了非常好的发展。虽然
10、在艺术性等层面上电子音乐相比直接用乐器演奏的音乐有所不足,但是它能大大减少制作音乐的成本、提高效率。通过提前把不同乐器在不同音高的声音提前录制入计算机,使用MIDI完成谱曲并适当地调整频率、电平并加入一定的随机因素(模拟人类演奏),最后降噪、调整均衡器并进行混音就可以制作出足以乱真的电子音乐。,频谱,为典型的未经过处理的midi音乐频谱图,上图为经过处理的电子音乐的频谱图,结论:由于声音有力度的变化以及较为良好的过渡所以给人较为真实的感觉,相比器乐来说,这样的处理方式对于人声的合成却是难上加难。首先人的声音不仅仅只有一种音色,人说话或唱歌时的音色和人的声带、口腔、鼻腔、舌头等位置和构造有一定的
11、关系。比如有一个人感冒了,那么我们就可以迅速通过他的声音来得知他的鼻子堵住了;再例如一个人在唱歌的时候可以故意使自己的声音显得更加苍老等等。人的声音也会受到呼吸的频率,气流的大小等等有关。与此同时,人的语言有发音、语调等元素,这些也是器乐所没有的。所以合成人声要想达到逼近于真正人发出声音的效果是相当困难的。,现在网络上出现了一些通过提取视频或音频的“音元”并改变其频率来完成的电子人声音乐(音轨MAD),但是我们发现在实际应用过程中这种方法的效果并不好,至少不能给人带来像人声一样的圆润的感觉。由此可见,在人声合成中仅仅调整频率或利用音元的排列想要达到完成音乐的程度是远远不够的。,VOCALOID
12、2,在探索电子人声音乐的过程中选择使用VOCALOID2的技术,该软件是YAMAHA公司推出的至今为止都表现十分出色的人声合成软件。该软件也是通过录制声音标本并对其一些特性进行细微的调节,但是由于可以进行调节的参数较为多样,所以其可以模拟的声音较为多样和真实,广受电子音乐制作者的欢迎。在语种上,选择日语,由于日语的发音特性和汉语较为相近(每个音节均需重读)而且日语只有单元音,连读没有英语、西班牙语等明显,比较适合上手。,旋律和发音其实仅仅是制作电子人声的第一步,在文章最初所说的一些能使声音更自然更符合人的发音规律的参数其实还并没有经过调节,例如音长、明亮度、重音、颤音等等。首先选择调节的是音长
13、。在人说话或者唱歌过程中,一个短句的头几个音节往往是短促而有力的,后面的音节则反之。所以在一个短句中音节的音长应该是递增的,在界面的中间靠下的位置可以更改VEL值,即velocity(速度)。语速越快,发音也越显得短促。,Hi,Siri,苹果公司最新推出的Siri功能代表了语音人机交互的民用化和商业化,并预示着新的人机交互革命即将展开。人机交互与人的认知密切相关,一方面人的认知方式对智能化系统的设计具有极大的启发,另一方面系统设计的目的也应当是使系统功能尽可能地符合人的认知规律。多通道交互、情绪认知和并行加工都对语音人机交互的进一步发展提供的思路。,2011年10月2日的苹果秋季产品发布会上,
14、iPhone 4S的技术升级让不少人感到失望。虽然拥有了更快更灵敏的A5双核处理器,800万像素摄像头,支持1080 HD 高清视频,搭载iCloud等一系列改进,但最抢人眼球的还是被苹果定义为“私人语音助理”的Siri应用,甚至在许多“果粉”眼中,Siri成为了替换掉iPhone 4 的唯一理由。,Siri 究竟为何物?在发布会上,苹果宣称Siri可以支持自然语音输入和识别,用户可以用声控来发送短信、预约会面、拨打电话。但与普通的语音搜索不同,Siri的最大特色在于其人机的互动方面,她不仅仅能明白用户发出的命令,还能回答用户的问题;不仅仅是提供答案,她还能亲自替用户完成一些基本的事情.,有S
15、iri作闹钟、查询路线、播放随机音乐、发送短信、查询查询天气、提醒日程安排、甚至还可以解惑和发推,如此强大的智能化的功能让人仿佛觉得自己真正拥有了一位善解人意的私人助理。尤其Siri在很多方面表现出的惊人的智能化,譬如对关键词的匹配(“Text Mike,Messages How are you?”),理解上下文(在问了伦敦的天气之后问“How about Shanghai?”),甚至还会调皮地和用户开玩笑(“I Love You!”Siri:“Oh,Stop!”)!,虽然Siri目前仍然存在不少的问题,如语音识别困难、问题的理解与解决困难等,但毫无疑问的是,Siri被苹果推出并进行商用,进一
16、步地实现了人工智能化,预示这人机交互中的再一次革命即将到来。为实现私人助理式的人机交互,不仅其背后必须有极为强大的信息和知识库支持,以应对用户不同的需求,而在信息和知识库与用户之间,为实现信息的输入与输出,还存在着一个极为重要环节人机交互。,I love you,Siri,Jim:I love you,SiriSiri:Impossible.Jim:No really,I love youSiri:I hope you dont say that to those other mobile phones,JimJim:No way,I only love you SiriSiri:You ar
17、e the wind beneath my wingsJim:Thats nice.Im glad you know I love youSiri:All you need is love.And your iPhone,人机交互与人的认知,进入信息时代以来,人机交互的命题就被提到了愈来愈高的地位。各种电子信息设备在人们的生活中已经无处不在,并且人们已经几乎不能离开他们。从键盘交互方式(命令行)到鼠标(图形界面和快捷键),再到多点触控,人机交互方式已经实现了两次巨大的飞跃。但是这种WIMP(Windows,Icons,Menus,Pointing devices)的人机交互方式愈来愈显现出弊端
18、,已有的资源已经难以满足人们膨胀的需求,也就是说,这种非自然的交互方式已远不能满足人们的海量而多样化的需求。人机交互方式的自然化,是大势所趋,这就必然要求机器的智能化,能够正确理解人的需求并及时地作出相应的反应。,人的感觉器官在接受外界刺激后,转码的信息在大脑的不同部位进行协同的模块化加工。这些模块有独特的功能(如语言理解、动作控制、情绪等),但又相互影响和共同工作。之后产生思维和行为,作出对刺激的反应。在机器的智能化过程中,已经从人本身的智能过程中汲取了很多养分。如关于记忆的内容和形式,认知心理学家M.R.奎利恩于1968年提出了语义记忆理论,认为人的记忆内容是概念以及概念之间的关系。概念知
19、觉的相互关系形成了一个网络,即语义网络。其中命题为语义单元,总体特征为层次结构或模板,层次间相互作用关系遵从个别到一般再到个别的认识原则。这一理论促进了记忆模型的研究,同时也成为自然语言理解研究的主要途径之一。语义网络系统已被人工智能各领域广泛采用。,。此外,从思维的角度,知觉、语言、学习都离不开思维,而记忆则是思维的基础。人们解决问题时的思维和推理,并不完全依照逻辑学所规定的推导规则,也不遵循繁琐的算法步骤,而是依靠知识和经验对问题进行估价,从而找到更简捷的解决问题的途径,即启发式推理。被誉为是人工智能真正开端的LT程序所采用的“目的和方法分析”或“反方向搜索法”就是启发式推理的一种。现在启
20、发式搜索技术已经成为人工智能的重要组成部分。可以这么说,人的认知方式和规律的研究进展将在很大程度上影响着人工智能、人机交互的发展。,从物理特性来说,声音只有有音色、音调、音强三个方面;但语言作为高级智能和思维活动的表征,语素中包含词、句、法,还有特定语境下的情感和语气,不可谓不复杂。机器如何识别语音信息,如何处理,并如何反馈,这都是在语音人机交互中非常重要的问题。在语言识别方面,上世纪80年代以即开始了对大词汇量、非特定人连续语音识别的研究。此时语音识别的研究思路也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。,。此外,还提出了将神经网络技术引入语
21、音识别问题的技术思路,开始了跨学科的人工智能研究道路。进入90年代以后,语音识别技术的应用及产品化方面出现了很大的进展,基于语音的信息输入设备此时大量出现。而目前正如Siri所表现出来的,在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想不能不说是语音交互中一次巨大进步。,要有五个方面的配合:首先是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好
22、的扩展能力。在信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等多领域的共同努力下,目前的语言识别和分析交互已达到了相当程度的有效性和智能化,至此很多人都提出第三次人机交互革命已不遥远。,目前对人机交互中的智能化多数都还处于“冷认知”的阶段,即还不能进行“热认知”情感交互。语音信号不仅包含了丰富的文字内容,同时还携带着大量的情感信息。说话人在不同情感状态下的说话方式具有很大差异,这种差异会造成语音信号的语义多样性,语音识别的最终任务应该是同时识别出语音中的文字内容和情感状态。由于说话人的情感不同所造成的语音变化对语音合成、语音识别等技术的影响较大,因此语音情感识别的研究已经受
23、到更多的关注,在加工方式上,以往认为人的信息加工是序列化的,即先对输入的信息进行分析、整合,再进行复杂的计算之后进行决策和行为。这也是基于电子计算机的系列化快速加工模式的。但人之所以具有如此强大的计算能力,现在认为这是因为人的大脑的处理信息时是进行并行加工的,也就是说,人们能够同时进行两个过程的任务,如同时对某个词进行发声与对该词进行检索。该理论基于神经网络的工作原理,已经由大量的神经生理学的实验证据所证实。在对智能化系统进行设计时,基于神经神经网络的相关建模已成为研究热点,已经并还将取得丰硕的成果。,在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也将一并消失了!而
24、我们完全有理由相信,在不久的未来,人机系统将以一种更自然、更便捷、更高效、更多样化的方式进行交互,而自然语言的人机交互方式无疑是其中非常重要的一种。,电视技术是20世纪人类最伟大的发明之一,电视技术是现代科学技术最先进研究成果的集合体。电视是人类进行信息传播变革中影响最大的研究成果。早期电视和数据传输是两种不同系统,现在电视和计算机趋于融合。1995年以后数字电视时代,电视和数据服务已经完全融和在一起。信息化时代的海量数据,电视的诞生,1925年,英国的贝尔德(J.L.Baird)根据“尼普科夫圆盘”进行了新的研究工作,发明机械扫描式电视摄像机和接收机。当时画面分辨率仅30行扫描线,扫描器每秒
25、只能5次扫过扫描区,画面本身仅有2英寸高、1 英寸宽。1926年,贝尔德向英国报界作了一次播发和接收电视的表演,开创了电视技术研究的先河。19271929年,贝尔德通过电话电缆首次进行机电式电视试播,并进行短波电视试验,英国广播公司开始试验播发电视节目。1936年11月2日是一个值得纪念的日子,位于英国市郊的亚历山大宫的英国广播公司电视台开始正式播出。这是世界上第一座正式开播的电视台,人们把这一天作为电视事业的开端。英国正式开播的电视在开始时仍为机电系统,4个月后被电子系统取代。1941年,美国国家电视标准委员会确定美国的电视技术标准为每秒30帧、每帧525行。同年7月1日,美国联邦通信委员会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音响技术 家庭 院影七
链接地址:https://www.31ppt.com/p-6034601.html