基于分层的个性化推荐系统可行性报告.doc
《基于分层的个性化推荐系统可行性报告.doc》由会员分享,可在线阅读,更多相关《基于分层的个性化推荐系统可行性报告.doc(78页珍藏版)》请在三一办公上搜索。
1、南昌市科技计划项目可行性研究报告计划类别: 工业攻关项目名称: 科技攻关项目类别: 重大项目课题名称: 基于分层的个性化推荐系统申请单位: 江西集佳科技有限公司 (盖章)项目(课题)负责人: 王 明 文起止年限: 2007年1月2008年12月通讯地址、邮编:南昌市高新区高新一路海外大厦南座联系电话、传真: 13803519201报告编制单位: 江西集佳科技有限公司二六年十月目录一、总论41.1. 项目的主要内容及技术原理简述41.1.1. 主要内容41.1.2. 技术原理简述41.2. 项目的目的和意义71.2.1. 项目的目的71.2.2. 项目的意义71.3. 相关技术领域国内外发展现状
2、、趋势101.4. 项目申请单位、主要合作单位及项目负责人的基本情况131.4.1. 项目申请单位基本情况131.4.2. 主要合作申请单位基本情况141.4.3. 项目主要负责人基本情况141.5. 有关本项目的现有工作基础和支撑条件18二、项目实施方案192.1. 项目达到的目标及考核的主要技术、经济指标192.1.1. 主要技术指标192.1.2. 主要经济指标192.2. 项目的主要研究(开发)内容202.2.1. 研究内容202.2.2. 系统设计流程202.2.3. Web使用挖掘212.2.4. 层次网页分类器302.3. 试验(开发)规模及地点352.4. 主要技术关键及创新点
3、352.4.1. 技术关键352.4.2. J2EE技术352.4.3. 项目的创新点422.5. 实施方案(含技术路线、工艺流程及技术关键的解决方案)432.5.1. 技术路线432.5.2. 系统总体架构442.5.3. 实施方案452.5.4. 技术风险分析502.5.5. 分年度的工作内容、目标512.5.6. 申请单位、合作申请单位及主要人员的分工512.5.7. 组织及管理的运行机制522.5.8. 项目实施基础条件532.5.9. 有关本项目的国内外知识产权状况分析55三、市场分析553.1市场预测(含同类项目的国内外市场情况)553.2本项目的市场竞争优势、风险及市场策略563
4、.3经济效益分析573.4社会效益分析573.5推广应用及产业化分析58四、经费预算及筹措方案594.1经费预算(总资金)594.2筹措方案594.3申请经费的主要用途594.4分年度用款计划(含申请经费)60五、技术经济可行性的综合评价61六、附件62一、 总论1.1. 项目的主要内容及技术原理简述1.1.1. 主要内容本课题的研究目标是设计和实现一个基于分层的个性化推荐软件系统,可广泛应用于电子商务、电子政务、网页信息搜索和数字化图书馆等。在用户行为分析与预测上,本项目运用层次分类的理论建立用户群层次分类图,用户之间存在一定的联系;其次,在用户群层次分类图的基础上,运用偏序关系原理,构建全
5、部用户具有偏序结构的关键浏览路径层次图,同时用网页内容来调整层次结构,用户的会话识别就依据层次类别图进行识别,从而达到用户的网页浏览行为的分析与预测,最终进行个性化信息定制的目的。在推荐引擎中,用多元统计分析中的偏最小二乘原理,建立基于偏最小二乘的层次文本分类模型,从而为不同兴趣的用户群推送具有层次的网页内容。此外,采用分层分类的理论可以在一定程度上解决定义不同兴趣的用户类别和网页内容的类别重叠问题,解决大规模电子商务、电子政务和数字图书馆的个性化推荐系统面临的网页内容分布不均匀、推荐算法的可扩展性等问题。1.1.2. 技术原理简述1、 推荐系统推荐系统(recommender systems
6、)是数据挖掘的一个分支,是一种较为特殊的数据挖掘系统,主要体现在推荐系统的实时性和交互性上。推荐系统是根据用户的兴趣爱好,推荐符合用户兴趣爱好的对象,也称个性化推荐系统(personalized recommender systems)。推荐系统不但根据用户以往的历史纪录,更需要结合当前一段时间的行为动作做出实时地反应,并根据与用户交互的反馈结果修正和优化其推荐结果。同时与其它数据挖掘系统不同的是,推荐系统主要面对的是客户,而非管理研发人员。当然推荐系统收集的数据信息会反馈到管理员,并协助其做出正确的决策。个性化推荐系统的关键是建立用户模型。推荐系统的热点问题是推荐技术和推荐算法的研究。推荐算
7、法是整个推荐系统的核心,它的性能决定了最终推荐结果的好坏。为了建立合理的用户模型,保证不同用户对实时性,推荐方式等的要求,产生了一系列的推荐技术和算法。例如协同过滤技术、分类和聚类技术、关联规则挖掘技术、神经网络技术等。2、 Web挖掘Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web数据主要包括:1)Web内容:主要是文本、图像、声音和动画等;2)Web结构:这些数据描述Web内容的组织,页面内的结构信息包括页面内不同的HTML和XML标记(tag)的布局,页面间的结构信息主要是页面间的链接;3)Web使用数据:描述Web页面的使用模式,包括Web访问日志
8、(如IP地址、页面引用、访问时间等)和应用服务日志等;4)用户注册信息和profile信息。按照这些Web数据对象,一般将Web挖掘分为3大类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。Web内容挖掘是从Web文档内容或其描述中抽取知识的过程。Web内容挖掘分为文本挖掘和多媒体挖掘两大类。对于文本文档(包括TXT, PostScript, PDF, HTML等)的挖掘称为文本挖掘。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化和半结构化的。Web文本挖掘
9、可以是对文档进行自动摘要、分类、聚类和关联分析,还可以利用Web文档进行趋势预测等。多媒体信息挖掘,主要是指通过对Web上的图像、音频和视频进行处理,应用存储和搜索技术与标准的数据挖掘方法的集成,对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。Web结构挖掘是从Web的链接关系和组织结构中推导知识,目的是应用页面间的结构和页面内的Web,运用社会网络(Social Network)分析方法对Web本身潜在的链接结构进行建模。建模基于超链的拓扑结构,这些结构具有或者没有链接描述。对Web拓扑结构建模具有代表性的方法有HITS算法和Pag
10、e-Rank算法。典型的系统有Clever和Google。Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。它关注于用户和Web进行交互时的用户行为预测,而挖掘的对象正是这一交互过程中产生的数据,主要包括:Web服务器日志(包括服务器日志、客户日志和代理日志)、用户简介、注册信息、用户对话或交易信息、用户提问方式等。3、 层次文本分类自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个类别的过程。自动文本分类技术的研究目标就是实现文本分类的自动化,以达到降低分类成本、提高分类效率和改善分类性能等目的。自动文本分类主要有两种基
11、本实现途径:基于知识的(Based-Knowledge)和基于学习的( Based-Learning)。也有两者结合的方式。基于知识也称基于规则的(Based-Rule),它的分类规则通常由一些领域的专家手工建立。这种方式的优点是可以达到非常高的分类准确率,但是它非常耗费人力和时间,对于各个领域的文本信息需要不同领域的专家。基于学习的自动文本分类系统是利用机器学习技术从预先定义的类别中自动提取分类规则,自动导出文本分类器。它是因十九世纪九十年代计算机性能大幅提高而兴起的,目前几乎所有重要的机器学习算法在自动文本分类领域都得到了广泛应用,如:最小二乘回归模型、k近邻、决策树、朴素贝叶斯、神经网络
12、和支持向量机等,基于机器学习的文本分类技术已经成为文本分类的主流技术。然而,因特网中分布传播的海量电子化文本所显现出的种类多样、分布不均匀、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战,非线性、数据集分布不均、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题。1.2. 项目的目的和意义1.2.1. 项目的目的从理论研究的角度来看,我们希望在电子商务和电子政务的框架下,对个性化推荐系统中的一些理论研究有所突破:(1) 重点分析和研究通过Web日志体现的用户浏览网页的行为模式,挖掘隐藏在这些数据后的行为特征;(2
13、) 分类和聚类是个性化推荐服务的基本技术,目前大多数推荐内容都是文本信息。本项目紧跟自动文本分类领域的最新发展,运用层次文本分类技术,研究大规模的因特网电子文本的推荐技术;(3) 本项目运用层次分类的思想来构建个性化推荐系统的用户兴趣和推荐内容。从应用的角度来看,希望基于上述的理论研究,构建分层的个性化推荐系统,该系统具有以下特点:(1) 能够较为客观反映用户浏览网页的行为模式,用分层的思想来刻画各种类别用户群的兴趣和爱好;(2) 能够提供基于层次化用户个人兴趣的、具有层次类别的内容的个性化推荐系统。1.2.2. 项目的意义我们的项目涉及数据库、数据挖掘、信息检索、机器学习、自然语言处理、计算
14、语言学、机器学习等多个研究领域,具有很高的研究价值和极其广阔的应用前景。在2006年2月9日我国公布的国家中长期科学和技术发展规划纲要(20062020年)中,把智能感知技术作为规划中的前沿技术:“重点研究基于生物特征、以自然语言和动态图像的理解为基础的以人为中心的智能信息处理和控制技术,中文信息处理;研究生物特征识别、智能交通等相关领域的系统技术”。同时,我国20062020年国家信息化发展战略中也提出:未来15年内,中国将大力推进国家信息化建设,充分利用信息技术,提高经济增长的质量和效益。根据规划,中国将继续推行电子政务和电子商务,加快培育具有核心竞争能力的信息产业,同时加快培养信息化人才
15、,提高国民的信息技术应用能力。所以,在这样的背景下,开展基于分层的个性化推荐系统具有一定的社会价值和经济价值。我们进行基于分层的个性化推荐系统的意义有:(1) 根据2006年7月19日中国互联网络信息中心CNNIC发布第十八次中国互联网络发展状况统计报告显示,截至2006年6月30日,我国上网用户总数为12,300万,国内网站和政府门户网站均有大幅增加。Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化推荐为不同用户提
16、供不同的服务,以满足不同的需求。(2) 对于电子商务网站,可以充分提高站点的服务质量和访问效率,留住已有的客户,吸引更多的用户,提高用户的忠诚度和满意度,有针对性对不同类别的用户采取不同的产品销售策略和产品定位等。作用主要体现在三方面:将电子商务网站的浏览者转变为购买者;提高电子商务网站的交叉销售能力(cross - selling);提高客户对电子商务网站的忠诚度。(3) 对于电子政务网站,可以提高政务信息的服务质量和用户的访问效率,提高网上办事效率,提升政府的服务水平和形象,为广大市民、企事业用户提供便利措施。(4) 建立基于本项目理论基础的个性化推荐产品,以此为契机,可以大力推进我省、我
17、市基于电子商务和电子政务平台的个性化信息服务软件产业的进步与发展。(5) 已有的研究表明一定时间段的Web访问用户蕴含了稳定的兴趣。并且,用户浏览网页的行为模式所隐藏的兴趣大多数不是单一的。我们运用层次分类的思想来反映用户的兴趣和爱好,这样更加符合客观世界中事物的联系、人们的思维习惯和分类学的科学原理。(6) 因特网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、类别之间的重叠和高维数据等特征,给近年来面向电子商务和电子政务的个性化推荐技术带来了巨大挑战。采用分而治之策略的层次分类器将是解决算法时间可扩展性的一种很好的途径;对于因特网上海量数据的类别信息的多样性和复杂性,相对
18、于大多数基于类别独立假设的单层分类,使用层次分类模型应该可以更好地刻画类别之间的区别和联系,可以一定程度上解决类别之间的重叠问题。(7) 我们研究基于偏最小二乘理论的层次文本分类器模型,进一步拓展了偏最小二乘在文本分类上的应用。偏最小二乘已经成功应用在许多领域,如化学和生物信息等,在个性化推荐领域还需进一步的研究。但尚未出现偏最小二乘在个性化推荐上的理论研究,具有一定的理论和应用创新。1.3. 相关技术领域国内外发展现状、趋势推荐系统在1997年之前一直被称作协作式过滤(Collaborative Filtering简称CF)。CF的概念是由David Goldberg等人在1992年构造邮件
19、系统Tapestry时第一次提出的。Tapestry因此也成为历史上第一个CF系统(基于CF的推荐系统)。当时提出CF是为了解决信息过载(Information Overload)的问题。具体情况是这样的:在当时由于电子邮件的泛滥使用,人们被淹没在各种各样的邮件之中,于是人们开始想办法解决这一问题。最初的方法是由邮件系统提供邮件分类列表,而用户仅仅选择自己感兴趣的邮件列表来过滤邮件。这一方法的主要缺点是一个用户的兴趣很少能整齐的映射到系统提供的邮件列表之中。一种改进方案是由用户指定一个过滤器,然后邮件系统根据每个用户指定的过滤器来搜索整个邮件列表,提供用户感兴趣的邮件。这一方法得到了很多邮件系
20、统的支持。但是这些系统提供的过滤器都是基于内容的(Content-based),没有考虑人的因素,如用户不能指定“我的邻居David读过的并且认为比较好的邮件”这样的过滤器。于是David Goldberg等人定义了用于这种目的的过滤器。当用户指定了多个这样的过滤器时,整个过滤过程就相当于多个邻居相互协作为当前用户过滤信息,因而称之为协作式过滤。总的来说,CF的主要思想是:把“邻居”和当前用户兴趣相近的人)们都认为好的物品推荐给当前用户。推荐系统有很多应用领域。1997年以前,推荐系统主要用于信息过滤,如电子邮件的过滤、新闻组文章的过滤等,代表系统有TAPSTRY, Grouplens,PHO
21、AKS, Fab, Referral Web, CiteSeer等。1997年以后,推荐系统被引入一个新的应用领域电子商务。在引入推荐系统以后,电子商务系统可以预测用户的喜好,仅仅把用户可能有兴趣的商品形成列表推荐给用户。由于这种列表往往很小,顾客可以很容易的找到自己感兴趣的商品,这样不仅极大的方便了顾客,而且潜在的增加了电子商务的交易量,为商家带来了可观的收益。因此,电子商务商家纷纷开始把推荐系统嵌入到他们的电子商务系统中,引发了推荐系统研究和应用的热潮。到目前为止,很多商业公司开展了推荐系统的研究,例如IBM Almaden Research Center, Compaq Research
22、 Center等;美国几乎所有知名的大学都有专门从事推荐系统的研究组,如UC Berkeley的Berkeley Workshop on Collaborative Filtering。到近几年来,个性化服务逐渐从学术研究走向了实际应用。很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如Microsoft、AOL、Yahoo、CNN、IBM等,均推出了个性化功能;很多电子商务网站也注意到了个性化服务的巨大商机,如Amazon、Ebay、Best Buy都推出了个性化服务功能。世界上IL乎所有的大的电子商务商都为顾客提供个性化推荐服务,有的商家甚至同时提供几种推荐服务。例如Amazon书店
23、,同时提供了Customer Who Bought Eyes ADelivers, Book Matcher, Customer Comments等个性化推荐服务。基于规则的系统如:IBM的WebSphere (基于内容过滤的系统如:Personal WebWatcher, Syskill & Webert,CiteSeer,WebMate,WebPersonalizer 等,它们根据资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。 协同过滤的系统如:GroupLe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分层 个性化 推荐 系统 可行性报告
链接地址:https://www.31ppt.com/p-3086787.html