省产学研前瞻性联合研究项目V3.doc
《省产学研前瞻性联合研究项目V3.doc》由会员分享,可在线阅读,更多相关《省产学研前瞻性联合研究项目V3.doc(28页珍藏版)》请在三一办公上搜索。
1、附件2:计划类别:省产学研联合创新资金校企联盟登记编号:项目类别:面上引导项目 重大战略产品产学研联合攻关江苏省科技计划项目申报书(省产学研前瞻性联合研究项目)项目名称:基于云计算平台的电子商务个性化推荐技术及其应用申报单位(盖章):东南大学合作单位(盖章):焦点科技股份有限公司合作单位(盖章):项目负责人:罗军舟联系电话:025-52091010推荐部门(盖章):申报日期:2012.3.15江苏省科学技术厅二一二年制填 写 说 明1、填写申报书前,请认真阅读本年度产学研联合创新资金项目申报通知,并按有关要求选择适当的项目类别进行申报。2、申报书及其他相关信息可从网站()上查阅和下载。3、申报
2、书各项内容须如实填写,力求详尽,表达完整、清晰、准确。4、申报书各栏目若内容较多,可自行加页。5、项目参与各方应广泛协商,形成共识,联合申报单位必须全部加盖公章。6、填写申报书之前,申报单位须填写江苏省科技计划项目信息表。7、企业情况(按栏目内容扼要填写)企业登记类型(选择以下内容):A国有及控股企业B集体企业C股份合作企业D联营企业E有限责任公司F股份有限公司G私营企业H港、澳、台商投资企业I外商投资企业J其他企业项目申报书一、项目立项的意义及必要性1、项目涉及的技术领域发展的现状,国内外最新研究进展情况。个性化推荐是一种根据用户的兴趣特点和使用行为,主动向用户推荐其可能感兴趣的资源的信息过
3、滤技术。个性化推荐技术作为一种重要的信息过滤手段,能够有效解决互联网的信息超载问题,目前已经成为电子商务、社交网络和在线视频等互联网应用的核心技术。近几年来,国内外学术界对个性化推荐相关的研究工作逐渐增多,在数据挖掘和机器学习领域的顶级会议(SIGCHI, KDD, SIGIR)中,研究个性化推荐的文章也在逐年增加,各种推荐算法涵盖了包括认知科学、近似性理论、信息检索等众多研究领域。与此同时,应用于各个领域的个性化推荐系统纷纷产生,其中具有代表性的有:Xerox公司为了解决研究中心资讯过载问题而开发的邮件过滤器Tapestry system,Netflix公司推出的电影推荐系统以及YouTub
4、e的视频个性化推荐服务。本项目的申请单位东南大学江苏省网络与信息安全重点实验室在个性化推荐领域具有坚实的研究基础,提出了普适环境下基于上下文感知的资源推荐模型,结合隐性动态上下文信息进行有效地资源过滤与个性化推荐。电子商务是个性化推荐最典型的应用领域,具有良好的发展和应用前景。商家根据用户的兴趣、爱好推荐顾客可能感兴趣或满意的商品,顾客的需求通常是不明确的、模糊的,如果商家能够把满足用户模糊需求的商品推荐给用户,就可以把用户的潜在需求转化为现实需求,从而达到提高产品销售量的目的。目前,国外知名的电子商务企业,如Amazon和eBay等,都不同程度地开发了适合企业自身的个性化推荐系统,同时每年会
5、投入大量精力改进其推荐算法。例如Amazon通过提出基于商品(item-based)的协同过滤推荐算法,计算商品间的相似度并向用户推荐与其使用过商品相似的商品,以解决用户兴趣度变化问题。随着电子商务的发展,其往往拥有海量的评分数据集,在利用已有个性化推荐技术处理电子商务应用时很难保证其推荐准确率和推荐时延,目前研究面向海量数据集的个性化推荐技术的研究工作还比较少。我国的电子商务行业目前正处于快速发展阶段,其中本项目合作单位焦点科技股份有限公司是国内领先的B2B电子商务企业,其自主开发运营的中国制造网(Made-in-China)拥有面向全球范围的海量用户和资源数据集,能够为本项目的研发提供数据
6、方面的技术保障。与此同时,我国在电子商务领域的个性化推荐技术发展缓慢,目前市场上鲜有成熟的电子商务个性化推荐产品问世。本项目拟结合我国电子商务企业的实际运营模式和数据特点,提出一个能够高效处理海量数据集的个性化推荐服务实现方案。云计算这一段增加虚拟化部分是信息产业界提出的一种新型分布式计算模式,其在处理海量数据方面具有显著优势。云计算分别从计算与存储两方面考虑面向海量数据的解决方案。存储方面,国外知名大公司如Google、Yahoo!等纷纷研究、建立面向海量数据的分布式文件系统如GFS、HDFS等,实现对数据的高效存储和快速访问。在此基础上,Google、Amazon、Yahoo!公司的研究人
7、员又提出面向上层应用的云数据库技术与产品,如BigTable、DynamoDB、HBase等,以key-value的形式按列存储结构化或半结构化数据,为上层大规模互联网应用提供高效的数据支持。计算方面,为了实现对海量数据的高效处理,研究人员提出了MapReduce、Dryad等并行程序编程模型,将海量数据处理流程抽象成数据抽取和汇聚两个主要过程,简化处理模型,同时屏蔽底层复杂性,为上层应用提供高可靠、高效率、高并行化的数据处理环境。此外,为了实现上层应用向MapReduce、Dryad的自动封装与转化,文献分别提出了面向应用的Sawzall、Pig以及DryadLINQ语言。本项目拟利用云计算
8、平台技术,解决电子商务个性化推荐技术在处理海量数据集时面临的数据稀疏问题和可扩展性问题。一方面,项目基于云计算平台中的分布式存储技术,对海量推荐数据集进行划分、放置、存储和查询,降低电子商务个性化推荐的推荐时延。另一方面,项目研究云计算平台的任务调度和资源分配机制,为推荐流程的并行运行提供有效支撑。项目的申请单位东南大学江苏省网络与信息安全重点实验室在云计算与海量数据处理方面具有较强的研究基础,参与了欧盟第七框架计划CASES项目,利用云计算技术为工业制造系统提供节能减排方面的咨询服务。同时构建了东南大学高性能计算中心,为AMS数据计算环境应用示范以及云计算环境下基于维存储的OLAP聚集计算关
9、键技术研究缺参考文献。2、本项目研究的目的、意义,对我省相关行业、领域技术进步的意义。随着近年来互联网的普及和企业信息化程度的不断提高,电子商务正以令人难以置信的速度蓬勃发展。据最新统计数据显示,2011年中国电子商务市场整体交易规模达到7.0万亿元,同比增长46.4%。预计未来3-5年内,中国电子商务市场仍将维持稳定的增长态势,平均增速超过35%,2015年达到26.5万亿元。而另一边越来越多的中小企业正在加入电子商务的行列,据报告显示,截止到2011年12月,国内使用第三方电子商务平台的中小企业用户规模已经突破1600万。然而电子商务系统在为用户提供越来越多选择的同时,商品信息过载的现象越
10、来越严峻,用户在大量的商品信息空间中无法快速便捷地找到自己真正需要的商品。因此如何对电子商务信息进行有效的组织利用,以及如何尽可能地了解顾客的兴趣爱好,以优化网站设计,从而方便顾客购物,成为电子商务发展亟待解决的问题。于是电子商务个性化推荐技术应运而生。个性化推荐系统是指依据网络消费者的浏览行为和历史购买记录提取消费者的个性化特征及潜在偏好,在此基础上为其推荐满足其当前偏好的商品。它的出现大大提高了电子商务活动的简便性和有效性,同时也提高了企业的服务水平。目前,个性化推荐技术已广泛应用于许多大型电子商务系统。尽管取得了一定的研究成果,但其仍面临很多挑战,如数据稀疏问题及冷启动问题。前者是指在大
11、规模电子商务环境下,同时被多个用户评分的项目非常稀少,从而影响相似用户的挖掘精度;后者是指对于新进项目或很少被用户评分项目很难被及时推荐给用户。除此之外,由于电子商务的迅猛发展,用户数量、商品信息以及购买信息呈几何方式上涨,已达到TB甚至PB级。对如此巨大数据集进行个性化推荐分析,需要消耗大量的计算与存储空间。倘若仍然采用集中式分析处理模式,则会导致推荐时间过长,极大影响了用户的购物体验。为此我们需要采用分布式处理模式对海量的电子商务数据进行分析挖掘及个性化推荐。随着近年来云计算技术的出现及发展,利用云计算环境实现面向电子商务的高效个性化推荐成为解决以上问题的有效途径。云计算的核心思想是将大量
12、用网络连接的资源进行统一管理,通过虚拟化技术构建共享资源池,并以按需支付、弹性扩展的方式向用户提供相应的资源,在提高服务质量的同时降低运维成本。根据以上分析并结合云计算的相关特点可知,采用云环境实现电子商务个性化推荐服务将具有如下优势:1、更加快速的处理。云环境中用户可以获得更多的计算与存储能力,同时通过高效的并行数据处理模式及任务调度机制,能极大提高针对海量电子商务数据的个性化推荐的执行速度及效率。2、更加灵活高效的资源获取方式。利用云计算技术,一方面系统可在短时间内完成用户所需资源的灵活部署与配置;另一方面,系统可以为大量中间数据按需申请与释放存储资源,有效避免资源的浪费。通过弹性的资源分
13、配,使得企业能够实时响应个性化推荐请求量的动态变化,极大加强了个性化推荐服务的稳定性。综上所述,我们需要针对目前电子商务个性化推荐特点并结合云计算的优势,研究基于云计算平台的电子商务个性化推荐技术,在解决个性化推荐算法自身问题的同时,通过利用云计算平台,实现面向海量电子商务信息的高效个性化推荐。项目的顺利实施不仅可以有效提高企业自身发展速度,实现产业技术改造及节能减排;同时通过加大项目成果产业化、商业化和规模化应用力度,可以有效促进电子商务产业结构调整和优化升级,加速形成电子商务产业集群,以支撑区域经济快速增长,并提升我省经济运行的整体质量和水平。3、本项目研究现有起点科技水平及已存在的知识产
14、权情况。加上云计算的一些内容,并列出专利目前,推荐系统最典型的应用是在 B2C 电子商务领域,具有良好的发展和应用前景。几乎所有的大型电子商务系统,如 Amazon,eBay 等,都不同程度地使用了各种形式的推荐系统。典型的商用推荐系统有A, eBay, Levis, Ski-,CDNOW,N等。主流的推荐方法基本包括以下几种:基于内容推荐、协同过滤推荐、基于知识推荐和组合推荐。近年来,一些方法比较的工作讨论并实验了各种方法与组合策略,得出结论:组合策略能够取得比纯基于内容或协同过滤方法更好的效果。随着近年来对推荐系统研究的开展, 很多研究中的重点、难点问题得到研究者的关注和共识主要包括:特征
15、提取问题,模型过拟合问题(可扩展性问题),新用户问题,新对象问题,稀疏问题等,还亟待学术界和工业界的解决。在发明专利方面,已申请的有涉及海量数字信息的分布式推荐方法,该分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,准确度更高;并适用于各种数字信息。在云计算及推荐系统构建领域。已有方法通过构建多个节点的Hadoop云平台,然后在Hadoop上构建Mahout中间件,再根据业务需求定制Mahout算法库,在Mahout中间件上实现传统推进算法、伪分布式推进算法和分布式算法,最后根据用户需求构建推荐应用框架。将串行推荐算法与MapReduce结合实现并行算法,可有效提高处理的效率
16、,能完成单机下无法处理的大量数据,并很快地将推荐结果提供给用户。现有的推荐算法仍然存在特征提取、冷启动、过拟合、稀疏问题,需要不断完善和解决。同时多维度推荐、相关反馈、评价准则、安全性以及推荐社会学等仍然是当前进行深入研究和扩展的热点问题。因此,基于云平台的个性化推荐服务具有很好的发展前景。二、研究内容、目标和拟解决的关键问题1、具体研究开发内容、目标和要重点解决的关键技术问题或开发的核心产品。(1) 面向海量数据的分布式个性化推荐技术研究海量评分数据集的筛选优化机制,过滤推荐过程中的无效评分,筛选出对推荐结果影响度较高的用户集合。针对数据筛选过程中用户兴趣范围不确定、遍历完整数据集时延过长等
17、问题,研究基于随机采样的近似查询技术,估计邻居的评分有效区间。研究评分数据集的分布式索引机制,快速准确的定位有效区间内评分数据的存储位置。在上述技术的基础上研究基于内容过滤、协同过滤和访问序列推荐的组合推荐技术,解决评分矩阵的稀疏性问题,完成对候选资源集合的过滤与排序。(2) 基于云平台的海量数据分布式组织与管理针对倾斜数据分布对个性化推荐算法执行性能产生的负面影响,研究基于属性的数据划分技术,将海量数据集划分存储到数据中心的多个存储节点上。研究推荐数据的放置策略,识别关联数据及其副本并放置到相同的节点集合中,减少推荐算法任务执行时数据的远程读取,降低网络带宽消耗。研究一种自适应的副本复制策略
18、,在工作负载不断变化的情况下,识别热点数据并动态创建副本,提高数据访问效率;同时针对流行度不高的评分数据,在保证访问需求的前提下保持其副本数目最小。(3) 基于云平台的任务调度与资源管理针对分析个性化推荐的执行特点,研究细粒度的资源分配模式,设计合理的资源分配方案。研究数据中心的网络状态感知方法,以实时获得网络性能信息;综合考虑数据放置、网网络状态和计算节点的负载,分别设计面向数据本地性和网络拓扑的任务指派算法,以减少网络传输开销对个性化推荐服务的影响。基于个性化推荐的执行流程,构造具有先后依赖关系的若干数据处理作业;针对作业之间的依赖关系,研究相应的中间数据的管理策略和作业公平调度机制;通过
19、估算关键路径,优化个性化推荐的整个过程。(4) 基于云平台的个性化推荐服务的实现与应用研究上述基于云平台的个性化推荐服务系统的实现方法,基于东南大学云计算平台,研制云计算环境下个性化推荐原型系统。一方面验证使本项目取得理论成果的可行性、有效性和可靠性,另一方面通过该系统的示范作用推广本项目所取得的研究成果。2、项目的特色和创新之处。本项目利用云计算技术解决了基于海量数据的电子商务个性化推荐问题,其创新之处在于:(1) 在个性化推荐算法方面,可高效分析稀疏的海量电子商务数据,大幅提高推荐效率。提出基于随机抽样策略的近似查询方法,快速确定兴趣度范围。充分考虑电子商务的推荐模式,综合利用基于内容过滤
20、、协同过滤和时间序列推荐等多种个性化推荐技术,有效解决数据稀疏性问题,提高推荐准确率。(2) 在数据组织方面,基于云计算技术存储海量数据,并实现数据的快速定位。充分考虑数据倾斜对个性化推荐算法的影响,提出基于属性的数据划分策略,可有效枝剪兴趣矩阵无关数据,缩小查询空间。提出了数据筛选优化策略,利用分布式评分索引快速准确地定位推荐算法所需的评分数据,提高算法执行的并发度,同时降低推荐时延。(3) 在数据处理方面,结合云计算环境的特点,优化个性化推荐的执行流程。将个性化推荐的流程建模成工作流,利用关键路径技术确定作业间的调度顺序,整体优化个性化推荐的完成时间。充分考虑网络带宽、数据放置的计算节点的
21、负载,提出面向数据驱动的任务指派策略,有效保证个性化推荐的执行性能。3、要达到的主要技术指标及水平。(1) 适用于B2B,B2C,C2C等电子商务应用场合(2) 采用先进高效的个性化推荐算法(3) 具有评分数据容错功能(4) 支持应用在线人数100X万万(5) 推荐准确率:平均绝对偏差MAE (mean absolute error) 0.7(6) 推荐时延:实时或近实时4、研究工作的预期结果、成果提交方式及知识产权情况。(1) 开发基于云计算平台的电子商务个性化推荐系统,完成本项目的主要技术性能指标;(2) 发表高质量学术论文 8-10 篇;(3) 申请国家发明专利 3-5 项,申报软件著作
22、权1-2个;(4) 完成基于云计算平台的个性化推荐技术研究报告;(5) 培养硕士和博士研究生3-5名。三、研究方法和技术路线1、拟采取的研究实验方法、步骤、技术路线及可行性分析。1.1 技术路线(1) 体系结构和总体框架图1 个性化推荐系统体系结构针对本项目的研究内容和目标, 我们给出了基于云环境的个性化推荐系统体系结构。通过将个性化推荐服务架构在云计算环境之上,实现面向电子商务领域的高效推荐服务。具体如图1所示,物理资源层主要包含云计算环境数据中心内的相应物理设备。云计算支撑平台层包含虚拟资源层,用于完成物理资源的虚拟化,在此基础上提供海量数据组织与管理,任务调度和资源管理。服务应用层包含电
23、子商务应用接口,以及个性化推荐模块及数据解析与推荐作业构建器。其中数据解析与推荐作业构建器是服务应用层与云计算平台层和物理存储层的接口,个性化推荐模块包含数据优化以及多种个性化推荐机制。(2) 面向海量数据的分布式个性化推荐技术提出候选邻居(Candidate Neighbor, CN)的概念,从海量评分数据集中筛选出对推荐结果影响度较高的用户集合,过滤无效评分,有效降低相似度计算过程的时间复杂度。为了选取合适的候选邻居集合范围以保证推荐准确率,首先提出基于随机采样的近似查询技术,针对基本查询类型建立近似估计量,确定近似查询处理估计模型,基于随机采样技术,利用中心极限定理求解评分矩阵中与目标用
24、户评分接近的用户近似数量;其次针对不同置信度选取策略,研究置信区间计算方式,以置信区间形式保证近似结果精度,并以此作为确定评分区间的考量依据;最后根据近似查询结果在最短的时间内计算得到符合推荐算法精度需求的评分区间,缩短处理时间,提高算法性能。在此基础上提出基于分布式存储系统的评分管理拓扑架构,构建存储节点间的覆盖网络,将候选邻居转换成覆盖网络中的多维区间查询请求,快速准确的定位推荐算法所需的评分数据集。根据上述筛选后所得的评分数据集,将基于内容过滤和协同过滤的推荐技术相结合,引入个体偏好树(IPT)的概念,综合考虑用户对商品多维属性的偏好信息、用户-商品评分矩阵信息、用户访问商品的偏好能量信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 产学研 前瞻性 联合 研究 项目 V3
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4170195.html