《音频水印》PPT课件.ppt
《《音频水印》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频水印》PPT课件.ppt(40页珍藏版)》请在三一办公上搜索。
1、第十三章 音频水印,13.1音频水印特点13.2音频水印算法评价标准13.3音频水印分类及比较13.4 DCT域分段自适应音频水印算法实例13.5小结,互联网技术的迅速发展和音频压缩技术的日益成熟使得以MP3为代表的网络音乐在互联网上广泛传播。但是,肆无忌惮的复制和传播盗版音乐制品使得艺术作品的作者和发行者的利益受到极大损害。在这种背景下,能够有效地实行版权保护的音频数字水印(Digital Audio Watermarking)技术变得越来越重要,已成为一个十分热门的研究领域。数字音频水印技术将具有特定意义的信息嵌入到原始音频中而不显著地影响其质量。根据不同的应用,嵌入的水印数据可以是版权信
2、息、序列号、文本(如音乐或艺术家的名字)、一个小的图像甚至是一小段音频。水印隐藏在宿主音频数据中通常不为人所感知,此外还必须能够抵抗常规音频信号处理以及某些恶意的攻击。,一个好的音频水印算法应该具备如下性质:(1)水印必须嵌入到宿主音频数据中,否则很容易被修改或除去。(2)水印必须具有感知透明性,即不能对原始音频的质量产生明显的影响。(3)为保证水印的安全性,一般在嵌入过程和检测过程中要使用密钥。(4)水印应该对 MP3 有损压缩、低通滤波、噪声、重采样等音频信号处理具有鲁棒性。(5)嵌入和检测的计算代价要足够小以进行实时处理。(6)在大多数情形下,水印检测不应该需要原始音频,即进行盲检测,因
3、为寻找原始音频是十分困难的。(7)水印算法最好是公开的,即安全性应依赖于密钥的选择而不是对算法进行保密。设计一个水印系统满足以上全部要求是很困难的。有些性质如鲁棒性、透明性和数据容量之间是相互矛盾的,因此,在这些要求中寻找最佳平衡是水印系统设计的目标。,13.1音频水印特点,在音频中加入水印,要考虑到音频载体信号的在人类听觉系统、音频格式以及传送环境等方面的特点。与图像和视频相比,音频信号在相同的时间间隔内采样的点数少。这使得音频信号中可嵌入的信息量要比可视媒体也要少。并且由于人耳听觉系统(HAS)要比人眼视觉系统(HVS)敏感得多,因此听觉上的不可知觉性实现起来要比视觉上困难得多。,人类听觉
4、系统(HAS-Human Auditory System),人耳的机理相当复杂,它就像一个频率分析仪,能够探测到从10Hz至20000Hz的声音。描述人类听觉系统的感知特性一般从下面三个方面来分析:响度、音高和掩蔽效应。(1)对响度的感知 声音的响度即声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即声压单位(达因/平方厘米)或声强单位(瓦特/平方厘米)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两个概念,但它们之间又有一定的联系。,当声音弱到人耳刚刚可以听见时,称此时的声音强度为“听阈”。例如,1KHz
5、纯音的声强达到时,人耳刚能听见,此时的客观响度级定义为零dB声强级,而主观响度级定义为零方。另一种极端的情况是声音强到是人耳感到疼痛,我们称这个阈值为“痛阈”。例如,当频率为1KHz的纯音声强达到120dB左右时,人耳感到疼痛,此时主观响度级为120方。实验表明,“听阈”和“痛阈”都随频率变化。图13.1说明了人耳对响度的感知随频率变化的特性。图中最上面的一条曲线是“痛阈”随频率变化的曲线,最下面的一条曲线是“听阈”随频率变化的曲线,这两条曲线之间的区域就是人耳的听觉范围。由图13.1可见,1KHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度。,图13.1 人耳对响
6、度的感知随频率变化的曲线,(2)对音高的感知客观上用频率来表示声音的音高,单位为Hz。而主观感觉的音高单位则是“(美)”。它们也是两个不同又有联系的概念。主观音高与客观音高的关系可用下式表示。人耳对响度的感知有一个从听阈到痛阈的范围,对频率同样也有一个感知范围。人耳可以听见的最低频率约为20Hz,最高频率约为18000Hz。图13.2就反映了人耳对响度感知能力随着信号频率变化的规律。,图13.2“音高-频率”曲线,(3)掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音,这种现象称为听觉掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。听觉掩蔽取决于屏蔽声音与被掩蔽声音的幅值与时域特性,可分
7、为频域掩蔽和时域掩蔽。频域掩蔽是指听觉信号中,若两个信号的频率相近,那么较强的信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频信号,但高频信号对低频信号的掩蔽作用不明显。在当代高质量声音编码技术中就使用了频率掩蔽模型。时域掩蔽比较直观,它是指强音和弱音同时或几乎同时出现时,强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前掩蔽是指在强掩蔽声音出现前,被掩蔽声音不可听见。滞后掩蔽是指在强掩蔽声音消失后,被掩蔽声音不可听见。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽大约只有520ms,而滞后掩蔽可以持续50200ms。,(4)对于频域信号中的相位分
8、量和幅值分量,人耳对幅值和相对相位更为敏感,而对绝对相位不敏感。(5)人耳对不同频段声音的敏感程度不同,通常人耳可以听见20Hz18KHz的信号,对2KHz4KHz范围内的信号最为敏感,在此范围内幅度很低的信号也能被听见,而在低频区和高频区,同样低幅度的信号就可能无法被听见。即使对同样声压级的声音,人耳实际感觉到的音量也是随频率而变化的。,(6)人类听觉系统对声音文件中附加的随机噪声敏感,并能觉察出微小扰动。(7)人类听觉系统有很大的动态范围及较小的分辨范围,HAS能察觉到大于100,000,000:1的能量,也能感觉大于1000:1的频率范围,对加性随机干扰也同样敏感。可以测出音频文件中低于
9、1/10,000,000(低于外界水平80dB)的扰动。因此,较大的声音可屏蔽较小的声音。,音频文件格式,对高质量数字音频的描述样本最流行的格式是16比特线性量化,如:Windows中的WAV格式音频文件和AIFF音频交换文件格式。另一种对较低质量声音的流行版本是采用8比特律的对数分度。这些量化方法使信号产生了一些畸变,在8比特律中显得更为明显。一般声音的流行采样频率包括8KHz,9.6KHz,10KHz,12KHz,16KHz,22.05KHz和44.1KHz。采样频率影响数据隐藏,因为它给出了可用频谱的上限(如果信号的采样频率为8KHz,则由采样定理,引入的修改分量的频率不会超过4KHz)
10、。对于大多数已有的数据隐藏技术而言,可用的数据空间与采样频率的增长至少呈线性关系。需要考虑的是由有损压缩算法(如ISO MPEG-AUDIO)引起的变化。这些变化彻底改变了信号的数据结构,它们仅仅保留了听者能感觉到的特性部分,也就是说,它听起来与原来的相似,即使信号在最小平方意义上完全不同。,声音传送环境,音频信息隐藏是指通过对声音文件作一些修改来嵌入信息,如作者信息、产品序号、提示旁白等,这种修改的作用效果类似于向声音文件中添加噪声数据。一般而言,此类修改必须做到不可觉察和难以在不损坏原始信号的情况下去除。其实由环境因素引起的声音变形也很常见,如周围的噪声、电路中的信号干扰等,且易被听者所忽
11、略。尤其是在将模拟声音信号转换到数字音频时需要进行A/D转换,这就不可避免地要引入量化噪声。一个数字格式的声音文件可在多种环境中传送。在图13.3中描述了几种可能的形式。第一种为无损传输,如图13.3(a)所示,即信号是在未作修改的环境中传送的,因此相位和幅值都没改变。在第二种情况中(图13.3(b),信号以更高或更低的采样率重新采样,未改变相位和幅值,但改变了时域特性。第三种情况是将信号转换成模拟的形式来传送(图13.3(c)。在这种情况下,即使认为模拟线路是无干扰的,相位、幅值和采样率都改变了。最后一种情况如图13.3(d)所示,当环境有干扰存在时,信号将被非线性地传送,从而导致相位和幅值
12、改变,以及引起回声等。,图13.3 传送媒体,13.2音频水印算法评价标准,13.2.1 感知质量评测标准(1)主观感知质量评测标准在音频水印中,一个常用的主观评价指标称为平均观点分(Mean OpinionScore,MOS),即测试者根据音频的好坏,给音质打分。一般按五分制评分。显然,得分为5或接近于5意味着两个音频数据之间几乎没有差别。MOS分值的含义如表13.1所示。此外,在ITU-R BS.1116中也定义了一个主观评分标准主观听觉质量区分度(SDG)。,表13.1 MOS 主观评分标准,(2)客观感知质量评测标准ITU-R推荐的BS.1387音频质量听觉评测标准通常用于音频编码器的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频水印 音频 水印 PPT 课件
链接地址:https://www.31ppt.com/p-5619760.html