音频识别app软件立项报告与项目计划书.doc
《音频识别app软件立项报告与项目计划书.doc》由会员分享,可在线阅读,更多相关《音频识别app软件立项报告与项目计划书.doc(16页珍藏版)》请在三一办公上搜索。
1、精选优质文档-倾情为你奉上目 录1. 项目概述1.1. 项目产品概述 随着基于海量音频内容的快速关键词检索技术的日益成熟,本项目欲设计一款:Listening听力服务播放器。Listening听力服务播放器的研发不但要具有网络上普遍音频播放器的所有基本功能,更拥有快速关键音检索技术,此技术可以极大提高音频资源利用的效率,在日常学习中,能够满足学者对听力训练音频使用的更多需求,具备高效的搜索和查询技术。Listening听力服务播放器是一款适用于学生学习阶段支持多语言引擎的听力训练服务播放器,主要支持SMI,SRT,SSA/ ASS字幕,支持支持MPEG,MP4,FLV,WMV / ASF,MK
2、V和RMVB文件等。1.2. 项目背景数字化和互联网时代的到来,造成多媒体信息的爆炸式增长。随着计算机技术、网络信息技术和通信技术的不断发展,图像、视频、音频等多媒体已逐渐成为信息处理领域中主要的信息媒体形式。在众多多媒体数据类型中,其中音频占有很重要的地位,包括其自身的特殊结构和丰富的语义。随着信息的爆炸性增长,以及手机和电脑市场的迅速发展,越来越多的音频和视频文件也越来越被人们所接受,而且它们在生活中占据越来越重要的角色。与此同时,各种手机播放器也日新月异,多播放器功能异常强大。伴随着中国移动设备的发展,以前不可企及的手机或电脑成了人们平时生活不可缺少的一部分,而且现在手机性能和电脑性能越
3、来越强劲,人们可以更好的提升手机的应用价值,而且人们也越来越热衷开发新的软件应用。在这些应用当中,多媒体功能的开发也成为众多热点之一。当下,听音乐和有声读物依旧是非常好的学习或放松方式。据我在学校从周围的同学了解看来,绝大部分的学生有听歌或者听语言类听力训练的习惯,在某种意义上来说,学习语言类听听力己经成为一种学习方式。而且目前来说,手机和电脑己经得到相当大程度的普及,这也己经成为了一种生活必需品。那么,既然都己经有如此的契机,我们为何不开发一款基于Android平台或Windows的语言类听力服务播放器。1.3. 项目商业模式概述 自从苹果的面世与流行,彻底改变了现代人聆听音乐的习惯,而与等
4、智能手机与平板电脑的盛行更触发了我们生活娱乐方式的转变,也宣告了数字音乐流媒体播放时代的到来。一时之间,数字流媒体的相关产品成为了热点,包括流媒体音乐播放器、支持流媒体音乐播放的功放与音箱等,这也促使传统逐渐迈向数字化转型。Listening听力服务播放器的提出的设计理念正符合当前的数字化服务方式的转型,与各大出版社、教育部和培训机构合作共同完成一款语言类听力播放器来给使用者带来舒适的学习环境。1.4. 项目核心优势概述项目核心优势即是播放器上功能的创新,主要包括:快速关键词检索、多音轨切换、日常语简单对话功能以及关键标签标注功能。快速关键词检索功能的实现标志着音频播放器上的一大突破。快速关键
5、词检索技术的应用,该功能是Listening播放器中至关重要的功能,此功能实现的关键点是关键词检测,是在一段连续语音中找出给定的目标词的发音所出现的准确时间段,并给出每个候选段的置信度。快速关键音标检索系统,采用了基于语音内容的检索技术,能够在海量视音频中快速搜索和准确定位所要查询的内容,为多媒体语音和音频信息的检索再利用提供了新的技术手段。1.5. 项目融资计划概述Listening听力服务播放器的发布与包装,这些都需要与各大出版社、教育部和培训机构合作共同完成,可以把Listening推广到各个语言学习领域,给使用者带来非凡的学习感受,积累客户群体,然后可以开发出高端的学习体验服务,可以让
6、客户和使用者进行购买体验。2. 市场分析2.1. 行业分析目前,对于视音频学习如何辅助语言教学的方式的改变,已取得了大量的研究成果。讨论的焦点主要集中于如何进行听力资源选取以及如何将其高效地运用于音频播放器语言教学等方面。例如:结合学习者的兴趣和水平恰当地选择学习材料;为学生设计相应的练习便于课后巩固;组织学生进行模仿和讨论以加深印象等。赤瑞特拉的研究也证实,人类通过交流,记忆的内容能达到70%。以上的研究成果强调了教师的主导作用。建构主义学习理论认为,学习是一个积极主动的建构过程。学习者不是被动地接受外在信息,而是根据先前认知结构主动、有选择性地知觉外在信息。如果脱离教师指导的环境,视音频资
7、源将变成单向的信息灌输,不利于学习者理解其内容,这将影响学习者的兴趣和学习效率,Listening产品的提出就是为了解决这些学习问题。产生此问题的根本原因在于,主流的视音频播放软件对视音频学习材料一直是单向顺序播放,缺乏对学习者个性化交互的支持,从而影响学习者主动性的发挥。因此,如何对视音频播放软件进行改进,从语言学习者的需求出发,支持学习者个性化交互的需要,成为亟待解决的问题。2.2. 定位分析 Listening产品的定位就是为了让学习者更好的体验学习的快乐,提出了基于学习者的交互式多媒体语言学习软件包的设计模式,对语言学习软件的设计具有指导意义。Listening听力服务播放器的研发不但
8、要具有网络上普遍音频播放器的所有基本功能,更拥有快速关键音检索技术,此技术可以极大提高音频资源利用的效率,在日常学习中,能够满足学者对听力训练音频使用的更多需求,具备高效的搜索和查询技术。Listening将定义为一种用以创造探索性的学习环境的软件应用,在这种学习环境中,数字化声音、形象、文字、录像等组成部分通过计算机平台综合起来,置于学习者的直接控制之下。软件要实现以下功能:学习者针对不同的学习目标,在制定计划和选择课程内容方面起主导作用;设计开放式的学习任务,允许学习者选择不同的路径来完成;强调学习过程中学习者的参与度。学习材料要提供给学习者参与的机会,使其成为语言学习中积极的贡献者,而不
9、是被动的知识接受者;软件设计中强调为学习者提供不同的学习风格,如视觉、听觉、触觉等,多角度提高学习者的学习体验。2.3. 核心竞争力分析Listening听力服务播放器的难点是,如何提高学习过程中学习者的参与程度。从实现学习者与学习资源交互的角度出发提出3 种交互方式,分别为控制视音频材料的播放内容和播放次数、控制材料播放过程中的显示信息、支持为学习内容添加注解。例如:由学习者控制视音频材料的播放内容,语音搜索需要进行听力训练的位置,包括精确选择需要播放的片段、指定是否显示字幕及显示字幕原文或译文等、设定选定片段的播放次数;学习者可对材料中的重难点进行标注,并在材料播放时加以提示等。Liste
10、ning这些功能的实现会打破未来听力服务播放器的定位模型,为学习者和出版社以及教育部都会产生非凡的影响。将会打破国内外的数字播放器的格局,为音频播放器带来崭新的突破。3. 产品设计3.1. 产品架构Listening听力服务播放器软件主要由基础框架、资源管理器、播放器和编辑器组成,如图3-1所示。主框使用分割器,为整个系统提供了一个总体架构,各大GUI 组件则放在其中。资源管理器用来管理学习资源,播放器用以播放媒体,编辑器用来阅读学习材料脚本、标注重难点等。主框协调各大组件,完成各种功能。图3-1 产品架构 Listening播放器的核心功能就是快速关键词检索技术,此技术是基于内容的音频分类和
11、检索系统,是介于信息用户和音频数据库之间的一种用户信息服务系统。 图3-2给出快速关键词检索系统的系统框架。在音频检索中,需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤,系统包括音频数据库生成模块与用户查询浏览模块两个部分。图3-2 快速关键词检索系统框架3.2. 产品功能Listening听力服务播放器不仅包括网络播放器上的基本功能,这些基本功能主要包括:打开文件、显示播放目录、播放、暂停、快进、复读、查找、字幕提示、电脑朗读、快速定时、永恒同步、电子阅读等;更包括本项目的技术亮点功能,主要包括快速关键词检索、多音轨切换、日常语简单对话功能以及关键标签标注功能,下面一一介绍
12、。(1)电脑朗读功能:电脑文本朗读是基于TS语音引擎,利用这个引擎电脑可以将文本以语音方式进行朗读,并且TTS语音引擎支持很多种语言。转换功能可以将TTS语音引擎朗读的语音直接转换成音频格式,并且保存起来。(2)快速定时功能:该功能和播放器中的“快进/倒带”及“下一曲/上一曲”很相似。然而,快速定时的时间跳转功能则要方便和快捷些,使用者可以将自行定义为按一次前进或者后退若干秒,比如20秒、30秒等。(3)永恒同步功能:永恒同步显示是指在播放听力训练音频时,其显示屏可以选择自动地同步显示所播放音频的听力字幕,这是一个非常实用的功能,尤其是听力训练或者学习英语时,对使用者的帮助是不言而喻的。(4)
13、电子阅读功能:也就是电子图书功能,这是不限制文件类型的阅读功能。其实早期的机型也支持TXT文本的阅读,但是却没有定位功能。这就好比是翻阅一本没有编写页码的书,要想查找书中的某一页是十分的困难。本播放器的定位功能就是给电子图书添加页码的功能,有了这页面定位功能,就可以通过选择所要阅读的页码,直接找到使用者所希望的阅读内容。以上是Listening听力服务播放器具备的基本强化功能,Listening播放器功能如图3-3所示。Listening播放器功能播放器基本功能关键标签标注日常语对话功能多音轨切换快速关键音检索电脑朗读快速定时基本功能永恒同步电子阅读图3-3 Listening产品功能图(5)
14、关键标签标注功能:通俗表示就是“书签功能”,这是Listening中的音频定位功能。既可以在记录过程中使用,也能够在播放过程中使用。例如用Listening进行语言听力训练时,或者是记录名人激动人心的演讲,其中必然包含有若干个精彩之处,在记录的过程中只要在这些精彩处按Bookmark键,设定关键标签注释,自己可以定义名字做一个标记。这样在今后重新听这个音频时,就可以通过已经设定的书签直接跳到这些精彩处,或是通过原音频已经标注好的标签进行跳转。(6)多音轨切换功能:该功能是在播放音频时,音频可以有单音鬼、双音轨以及多音轨。在播放的时候可以为了更加清晰的、立体的进行听力训练,可以切换音轨,把单音轨
15、切换至双音轨,甚至是多音轨,这些在播放器中实现,增强听力训练者的听力感受,是本Listening播放器的特色之一。(7)日常语简单对话功能:该功能是Listening播放器的特色功能,支持多语言的日常语简单对话,听力训练者在闲暇之余,可以简单的和播放器进行日常用户对话,不但增强使用者的听力能力,也同时会增强使用者的口语表达能力,多方面提高学习者的语言学习能力。(8)快速关键词检索功能:该功能是Listening播放器中至关重要的功能,此功能实现的关键点是关键词检测,是在一段连续语音中找出给定的目标词的发音所出现的准确时间段,并给出每个候选段的置信度。快速关键音标检索系统,采用了基于语音内容的检
16、索技术,能够在海量视音频中快速搜索和准确定位所要查询的内容,为多媒体语音和音频信息的检索再利用提供了新的技术手段。本功能的实现会大大提高使用者在使用时的用户体验度。3.3. 产品性能要求(1)区别于目前众多厂商采用的基于云计算大数据分析的识别技术,快速关键音标检索技术并不需要理解目标词汇和音频内容的具体含义和语义,不需要对语音内容进行识别。(2)要求采用组成发音最小因素进行语音模式库的建设,国际音标(IPA)是发音最小因素的符号表示方法。目前,国际音标组织已经完全标注全世界所有语言的发音,通过不同的组合,可以表示出任何的语言,任何的方言。(3)不限语种、方言,可以准确的检索到字、词、句,适用于
17、各类语言环境,只要该语言能够用国际音标进行标注,均可以检索,对中国多方言、多民族语种的环境特别重要。(4)给用户带来方便快捷的听力学习体验。4. 商业模式与营销策略4.1. 项目商业模式Listening听力服务播放器的商业模式模式其实是一种典型的C2C模式:(1)所有出版社和教育机构都可以成为音频资料的提供者。本平台对音频资料提供者有部分的资金回馈和严格对提供者者资料的限制。(2)为资料提供团队提供方便。资料提供者在注册之后,Listening就会为其提供Listening SDK和相应的技术支持帮助设计上传学习材料音频。同时,Listening团队会根据提供者的要求进行音频处理,把音频成功
18、放到平台之上,可以很方便的在Listening这个平台上交易。(3)帮助用户进行选择。Listening通过排行榜、搜索等方式帮助手机节电脑用户很方便在平台上找到想要的学习音频材料。这种模式强调的是在音频提供者与使用之间搭建平台,Listening只充当平台,帮助推广和支付,收取分成。4.2. 项目经营策略Listening的营销策略是完全基于平台自身的自营销体系与合作模式。以平台为中心,向上帮助音频资料提供者把资料推荐到用户眼前,向下帮助用户找到他需要的学习音频资料。主要营销策略主要包括:(1)搜索引擎:帮助学习者根据关键词搜索找到想要听力类学习音频资料。(2)排行榜:按照用户的喜好,基于2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 识别 app 软件 立项 报告 项目 计划书

链接地址:https://www.31ppt.com/p-2791913.html