基于分层的个性化推荐系统可行性报告.doc
南昌市科技计划项目可行性研究报告计划类别: 工业攻关项目名称: 科技攻关项目类别: 重大项目课题名称: 基于分层的个性化推荐系统申请单位: 江西集佳科技有限公司 (盖章)项目(课题)负责人: 王 明 文起止年限: 2007年1月2008年12月通讯地址、邮编:南昌市高新区高新一路海外大厦南座联系电话、传真: 13803519201报告编制单位: 江西集佳科技有限公司二六年十月目录一、总论41.1. 项目的主要内容及技术原理简述41.1.1. 主要内容41.1.2. 技术原理简述41.2. 项目的目的和意义71.2.1. 项目的目的71.2.2. 项目的意义71.3. 相关技术领域国内外发展现状、趋势101.4. 项目申请单位、主要合作单位及项目负责人的基本情况131.4.1. 项目申请单位基本情况131.4.2. 主要合作申请单位基本情况141.4.3. 项目主要负责人基本情况141.5. 有关本项目的现有工作基础和支撑条件18二、项目实施方案192.1. 项目达到的目标及考核的主要技术、经济指标192.1.1. 主要技术指标192.1.2. 主要经济指标192.2. 项目的主要研究(开发)内容202.2.1. 研究内容202.2.2. 系统设计流程202.2.3. Web使用挖掘212.2.4. 层次网页分类器302.3. 试验(开发)规模及地点352.4. 主要技术关键及创新点352.4.1. 技术关键352.4.2. J2EE技术352.4.3. 项目的创新点422.5. 实施方案(含技术路线、工艺流程及技术关键的解决方案)432.5.1. 技术路线432.5.2. 系统总体架构442.5.3. 实施方案452.5.4. 技术风险分析502.5.5. 分年度的工作内容、目标512.5.6. 申请单位、合作申请单位及主要人员的分工512.5.7. 组织及管理的运行机制522.5.8. 项目实施基础条件532.5.9. 有关本项目的国内外知识产权状况分析55三、市场分析553.1市场预测(含同类项目的国内外市场情况)553.2本项目的市场竞争优势、风险及市场策略563.3经济效益分析573.4社会效益分析573.5推广应用及产业化分析58四、经费预算及筹措方案594.1经费预算(总资金)594.2筹措方案594.3申请经费的主要用途594.4分年度用款计划(含申请经费)60五、技术经济可行性的综合评价61六、附件62一、 总论1.1. 项目的主要内容及技术原理简述1.1.1. 主要内容本课题的研究目标是设计和实现一个基于分层的个性化推荐软件系统,可广泛应用于电子商务、电子政务、网页信息搜索和数字化图书馆等。在用户行为分析与预测上,本项目运用层次分类的理论建立用户群层次分类图,用户之间存在一定的联系;其次,在用户群层次分类图的基础上,运用偏序关系原理,构建全部用户具有偏序结构的关键浏览路径层次图,同时用网页内容来调整层次结构,用户的会话识别就依据层次类别图进行识别,从而达到用户的网页浏览行为的分析与预测,最终进行个性化信息定制的目的。在推荐引擎中,用多元统计分析中的偏最小二乘原理,建立基于偏最小二乘的层次文本分类模型,从而为不同兴趣的用户群推送具有层次的网页内容。此外,采用分层分类的理论可以在一定程度上解决定义不同兴趣的用户类别和网页内容的类别重叠问题,解决大规模电子商务、电子政务和数字图书馆的个性化推荐系统面临的网页内容分布不均匀、推荐算法的可扩展性等问题。1.1.2. 技术原理简述1、 推荐系统推荐系统(recommender systems)是数据挖掘的一个分支,是一种较为特殊的数据挖掘系统,主要体现在推荐系统的实时性和交互性上。推荐系统是根据用户的兴趣爱好,推荐符合用户兴趣爱好的对象,也称个性化推荐系统(personalized recommender systems)。推荐系统不但根据用户以往的历史纪录,更需要结合当前一段时间的行为动作做出实时地反应,并根据与用户交互的反馈结果修正和优化其推荐结果。同时与其它数据挖掘系统不同的是,推荐系统主要面对的是客户,而非管理研发人员。当然推荐系统收集的数据信息会反馈到管理员,并协助其做出正确的决策。个性化推荐系统的关键是建立用户模型。推荐系统的热点问题是推荐技术和推荐算法的研究。推荐算法是整个推荐系统的核心,它的性能决定了最终推荐结果的好坏。为了建立合理的用户模型,保证不同用户对实时性,推荐方式等的要求,产生了一系列的推荐技术和算法。例如协同过滤技术、分类和聚类技术、关联规则挖掘技术、神经网络技术等。2、 Web挖掘Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web数据主要包括:1)Web内容:主要是文本、图像、声音和动画等;2)Web结构:这些数据描述Web内容的组织,页面内的结构信息包括页面内不同的HTML和XML标记(tag)的布局,页面间的结构信息主要是页面间的链接;3)Web使用数据:描述Web页面的使用模式,包括Web访问日志(如IP地址、页面引用、访问时间等)和应用服务日志等;4)用户注册信息和profile信息。按照这些Web数据对象,一般将Web挖掘分为3大类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。Web内容挖掘是从Web文档内容或其描述中抽取知识的过程。Web内容挖掘分为文本挖掘和多媒体挖掘两大类。对于文本文档(包括TXT, PostScript, PDF, HTML等)的挖掘称为文本挖掘。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化和半结构化的。Web文本挖掘可以是对文档进行自动摘要、分类、聚类和关联分析,还可以利用Web文档进行趋势预测等。多媒体信息挖掘,主要是指通过对Web上的图像、音频和视频进行处理,应用存储和搜索技术与标准的数据挖掘方法的集成,对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。Web结构挖掘是从Web的链接关系和组织结构中推导知识,目的是应用页面间的结构和页面内的Web,运用社会网络(Social Network)分析方法对Web本身潜在的链接结构进行建模。建模基于超链的拓扑结构,这些结构具有或者没有链接描述。对Web拓扑结构建模具有代表性的方法有HITS算法和Page-Rank算法。典型的系统有Clever和Google。Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。它关注于用户和Web进行交互时的用户行为预测,而挖掘的对象正是这一交互过程中产生的数据,主要包括:Web服务器日志(包括服务器日志、客户日志和代理日志)、用户简介、注册信息、用户对话或交易信息、用户提问方式等。3、 层次文本分类自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个类别的过程。自动文本分类技术的研究目标就是实现文本分类的自动化,以达到降低分类成本、提高分类效率和改善分类性能等目的。自动文本分类主要有两种基本实现途径:基于知识的(Based-Knowledge)和基于学习的( Based-Learning)。也有两者结合的方式。基于知识也称基于规则的(Based-Rule),它的分类规则通常由一些领域的专家手工建立。这种方式的优点是可以达到非常高的分类准确率,但是它非常耗费人力和时间,对于各个领域的文本信息需要不同领域的专家。基于学习的自动文本分类系统是利用机器学习技术从预先定义的类别中自动提取分类规则,自动导出文本分类器。它是因十九世纪九十年代计算机性能大幅提高而兴起的,目前几乎所有重要的机器学习算法在自动文本分类领域都得到了广泛应用,如:最小二乘回归模型、k近邻、决策树、朴素贝叶斯、神经网络和支持向量机等,基于机器学习的文本分类技术已经成为文本分类的主流技术。然而,因特网中分布传播的海量电子化文本所显现出的种类多样、分布不均匀、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战,非线性、数据集分布不均、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题。1.2. 项目的目的和意义1.2.1. 项目的目的从理论研究的角度来看,我们希望在电子商务和电子政务的框架下,对个性化推荐系统中的一些理论研究有所突破:(1) 重点分析和研究通过Web日志体现的用户浏览网页的行为模式,挖掘隐藏在这些数据后的行为特征;(2) 分类和聚类是个性化推荐服务的基本技术,目前大多数推荐内容都是文本信息。本项目紧跟自动文本分类领域的最新发展,运用层次文本分类技术,研究大规模的因特网电子文本的推荐技术;(3) 本项目运用层次分类的思想来构建个性化推荐系统的用户兴趣和推荐内容。从应用的角度来看,希望基于上述的理论研究,构建分层的个性化推荐系统,该系统具有以下特点:(1) 能够较为客观反映用户浏览网页的行为模式,用分层的思想来刻画各种类别用户群的兴趣和爱好;(2) 能够提供基于层次化用户个人兴趣的、具有层次类别的内容的个性化推荐系统。1.2.2. 项目的意义我们的项目涉及数据库、数据挖掘、信息检索、机器学习、自然语言处理、计算语言学、机器学习等多个研究领域,具有很高的研究价值和极其广阔的应用前景。在2006年2月9日我国公布的国家中长期科学和技术发展规划纲要(20062020年)中,把智能感知技术作为规划中的前沿技术:“重点研究基于生物特征、以自然语言和动态图像的理解为基础的以人为中心的智能信息处理和控制技术,中文信息处理;研究生物特征识别、智能交通等相关领域的系统技术”。同时,我国20062020年国家信息化发展战略中也提出:未来15年内,中国将大力推进国家信息化建设,充分利用信息技术,提高经济增长的质量和效益。根据规划,中国将继续推行电子政务和电子商务,加快培育具有核心竞争能力的信息产业,同时加快培养信息化人才,提高国民的信息技术应用能力。所以,在这样的背景下,开展基于分层的个性化推荐系统具有一定的社会价值和经济价值。我们进行基于分层的个性化推荐系统的意义有:(1) 根据2006年7月19日中国互联网络信息中心CNNIC发布第十八次中国互联网络发展状况统计报告显示,截至2006年6月30日,我国上网用户总数为12,300万,国内网站和政府门户网站均有大幅增加。Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化推荐为不同用户提供不同的服务,以满足不同的需求。(2) 对于电子商务网站,可以充分提高站点的服务质量和访问效率,留住已有的客户,吸引更多的用户,提高用户的忠诚度和满意度,有针对性对不同类别的用户采取不同的产品销售策略和产品定位等。作用主要体现在三方面:将电子商务网站的浏览者转变为购买者;提高电子商务网站的交叉销售能力(cross - selling);提高客户对电子商务网站的忠诚度。(3) 对于电子政务网站,可以提高政务信息的服务质量和用户的访问效率,提高网上办事效率,提升政府的服务水平和形象,为广大市民、企事业用户提供便利措施。(4) 建立基于本项目理论基础的个性化推荐产品,以此为契机,可以大力推进我省、我市基于电子商务和电子政务平台的个性化信息服务软件产业的进步与发展。(5) 已有的研究表明一定时间段的Web访问用户蕴含了稳定的兴趣。并且,用户浏览网页的行为模式所隐藏的兴趣大多数不是单一的。我们运用层次分类的思想来反映用户的兴趣和爱好,这样更加符合客观世界中事物的联系、人们的思维习惯和分类学的科学原理。(6) 因特网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、类别之间的重叠和高维数据等特征,给近年来面向电子商务和电子政务的个性化推荐技术带来了巨大挑战。采用分而治之策略的层次分类器将是解决算法时间可扩展性的一种很好的途径;对于因特网上海量数据的类别信息的多样性和复杂性,相对于大多数基于类别独立假设的单层分类,使用层次分类模型应该可以更好地刻画类别之间的区别和联系,可以一定程度上解决类别之间的重叠问题。(7) 我们研究基于偏最小二乘理论的层次文本分类器模型,进一步拓展了偏最小二乘在文本分类上的应用。偏最小二乘已经成功应用在许多领域,如化学和生物信息等,在个性化推荐领域还需进一步的研究。但尚未出现偏最小二乘在个性化推荐上的理论研究,具有一定的理论和应用创新。1.3. 相关技术领域国内外发展现状、趋势推荐系统在1997年之前一直被称作协作式过滤(Collaborative Filtering简称CF)。CF的概念是由David Goldberg等人在1992年构造邮件系统Tapestry时第一次提出的。Tapestry因此也成为历史上第一个CF系统(基于CF的推荐系统)。当时提出CF是为了解决信息过载(Information Overload)的问题。具体情况是这样的:在当时由于电子邮件的泛滥使用,人们被淹没在各种各样的邮件之中,于是人们开始想办法解决这一问题。最初的方法是由邮件系统提供邮件分类列表,而用户仅仅选择自己感兴趣的邮件列表来过滤邮件。这一方法的主要缺点是一个用户的兴趣很少能整齐的映射到系统提供的邮件列表之中。一种改进方案是由用户指定一个过滤器,然后邮件系统根据每个用户指定的过滤器来搜索整个邮件列表,提供用户感兴趣的邮件。这一方法得到了很多邮件系统的支持。但是这些系统提供的过滤器都是基于内容的(Content-based),没有考虑人的因素,如用户不能指定“我的邻居David读过的并且认为比较好的邮件”这样的过滤器。于是David Goldberg等人定义了用于这种目的的过滤器。当用户指定了多个这样的过滤器时,整个过滤过程就相当于多个邻居相互协作为当前用户过滤信息,因而称之为协作式过滤。总的来说,CF的主要思想是:把“邻居”和当前用户兴趣相近的人)们都认为好的物品推荐给当前用户。推荐系统有很多应用领域。1997年以前,推荐系统主要用于信息过滤,如电子邮件的过滤、新闻组文章的过滤等,代表系统有TAPSTRY, Grouplens,PHOAKS, Fab, Referral Web, CiteSeer等。1997年以后,推荐系统被引入一个新的应用领域电子商务。在引入推荐系统以后,电子商务系统可以预测用户的喜好,仅仅把用户可能有兴趣的商品形成列表推荐给用户。由于这种列表往往很小,顾客可以很容易的找到自己感兴趣的商品,这样不仅极大的方便了顾客,而且潜在的增加了电子商务的交易量,为商家带来了可观的收益。因此,电子商务商家纷纷开始把推荐系统嵌入到他们的电子商务系统中,引发了推荐系统研究和应用的热潮。到目前为止,很多商业公司开展了推荐系统的研究,例如IBM Almaden Research Center, Compaq Research Center等;美国几乎所有知名的大学都有专门从事推荐系统的研究组,如UC Berkeley的Berkeley Workshop on Collaborative Filtering。到近几年来,个性化服务逐渐从学术研究走向了实际应用。很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如Microsoft、AOL、Yahoo、CNN、IBM等,均推出了个性化功能;很多电子商务网站也注意到了个性化服务的巨大商机,如Amazon、Ebay、Best Buy都推出了个性化服务功能。世界上IL乎所有的大的电子商务商都为顾客提供个性化推荐服务,有的商家甚至同时提供几种推荐服务。例如Amazon书店,同时提供了Customer Who Bought Eyes ADelivers, Book Matcher, Customer Comments等个性化推荐服务。基于规则的系统如:IBM的WebSphere (基于内容过滤的系统如:Personal WebWatcher, Syskill & Webert,CiteSeer,WebMate,WebPersonalizer 等,它们根据资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。 协同过滤的系统如:GroupLens,CoFE等,它们根据用户之间的相似性来过滤信息。基于协同过滤的系统优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题:一个是数据稀疏性,即系统使用初期,由于系统资源未获得足够多的评价信息,系统很难利用这些评价来发现相似的用户;另一个是可扩展性,即随着系统用户和资源数量的增长,系统性能会越来越低。还有一些个性化服务系统如WebSIFT,Dynamic Profiler等,同时采用了基于内容过滤和协同过滤两种技术。结合这两种过滤技术可以克服各自的一些缺点,为了克服协同过滤的数据稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价,这样可以增加资源评价的密度,利用这些评价再进行协同过滤,从而提高协同过滤的性能。除了可以应用于信息过滤领域和电子商务领域之外,推荐系统还可以应用到许多其他领城,如社会网(Social Network),大众传媒等。国内的个性化推荐技术的研究起步较晚,同国外个性化推荐系统,我国的从自动化策略、推荐的内容和用户兴趣的分析和收集都存在不小的差距,但是最近几年随着电子商务的快速发展,对其的研究和原型系统的设计较多。清华大学的冯翱等人提出了基于Agent的个性化信息过滤系统Open Bookmark;南京大学的潘金贵等人设计并实现了个性化信息搜集智能体DOLTRIAgent。一些著名的电子商务网站如当当网2006年10月推出的个性化商品推荐服务系统网购也2.0。门户网站新浪网推出了个性化的推荐系统。中国知网()提供的个性化信息服务系统(PIS),为用户提供了完全个性化的空间、体现个人的信息需求特征,同时提供用户兴趣分析、订阅推送等功能,建设一种主动式的个性化信息服务方式和网络化的互动学习方式。使信息服务更具有针对性,对不同的用户采用不同的服务策略并提供不同的服务内容。中国国家数字图书馆和超星数字图书馆推出了针对读者的个性化推荐系统。国内的电子政务网站的个性化推荐系统基本上还处于刚起步阶段。宁波市政府门户网站提供的个性化系统可根据用户的个人信息需求与行为习惯自行定制信息,从根本上提高互联网用户的网络信息使用效率和质量,充分体现了互联网作为超级媒体的互动性、个性化、整合性等诸多优势,为用户提供个性化的服务。个性化系统平台由两部份组成:其一,个性化定制系统;其二,个人行为推荐系统。个性化推荐系统的主要研究内容和研究方向主要包括如下几个方面:推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过滤两种。由于基于内容的过滤自身的局限性,协同过滤推荐技术是当前研究的热门。推荐质量研究:在大型推荐系统中,用户评分数据极端稀疏。用户评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难以保证。多种数据多种技术的集成:当前大部分的推荐系统都只利用了一部分可用信息来产生推荐。随着研究的深入,新型推荐系统应该利用尽可能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务.1.4. 项目申请单位、主要合作单位及项目负责人的基本情况1.4.1. 项目申请单位基本情况江西集佳科技有限公司于2002年5月在江西南昌注册成立,注册资本为600万元。公司主营:软件新产品的研发与制造,智能楼宇与工业自动化产品的代理销售和工程设计与安装,中央空调产品(含蓄冷)的代理销售和工程设计与安装。公司是专业从事软件开发和系统集成的高科技企业,拥有较为强大的软件开发团队,具有丰富的企事单位业管理软件开发与项目实施经验。具有多年的系统集成经验,我们善于将硬件、网络、软件和应用产品集成为一个完整、连贯和有效的体系结构环境,从而帮助客户更好地实现业务流程和需求。在电子政务领域为客户提供具有高度安全性、实用性以及满足海量数据应用的电子政务信息平台;为企业客户提供ERP、CRM、网络办公自动化、企业电子商务门户建设等方面在内的多行业企业信息化解决方案。研发是公司的核心竞争力之一。为了进一步提高企业的核心竞争力,为社会承担更多的责任,我司始终把技术创新放在首位,在新产品研发的道路上,进行了不懈的探索和追求。公司有一支由总经理带队,各专业协作的科研队伍。几年来公司累计投入研发经费800多万元,从事高新技术产品的研发工作。经过多年的努力,已获得七项国家专利和一项软件著作权,并于2004年8月成功地研制出具有完全自主知识产权、国内首创的“组合式机电一体化蓄冷中央空调机组”产品。该项目产品具有卓越的移峰填谷、平衡电力负荷之功能,它通过开发低谷用电,可大大降低用户的空调运行费用和高效节能,是一项利国利民的好项目。还有两项专利已通过实质审查程序。该项目荣获科技部等四部委联合颁发的“国家重点新产品证书”,同时还获得科技部2005年度“科技型中小企业技术创新基金”立项和科技部2006年度“国家级火炬计划”立项。多个软件及其它产品,通过了江西省科技厅等组织的专家鉴定,荣获2004年度省科技厅和省经贸委颁发的“高新技术产品证书”、“江西省优秀重点新产品证书”、 “江西省优秀重点新产品一等奖”和南昌市人民政府颁发的“南昌市科学技术进步奖”等多个奖项。公司以为社会承担责任为己任,倡导“傻子”精神,坚持以人为本的经营思想,致力于高新技术的产业化。三年来,公司业绩连年攀升,在健康稳步发展的同时,培养了一大批优秀的经营管理者、科研骨干和市场开拓精英,并在依法经营的过程中,树立了良好的企业形象,取得了较好的社会效益和经济效益。1.4.2. 主要合作申请单位基本情况江西财经大学现代教育技术中心下设计算机网络管理部、计算机教学部、软件技术部、远程教育管理部等十个部室。现有教职工60余人,其中教授、副教授和高级工程师6人,讲师、工程师15人。中心主要工作是:开展数字化建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财经大学信息系统的规划、设计、开发;负责学校校园网、校园卡系统的设计、建设,保障校园网的安全稳定运行;承担学校计算机网络教学和远程教育系统研究、设计与开发,并提供技术支持与服务。在科学研究和计算机应用软件开发工作中曾因项目建立以学分制为核心的新型教学管理机制的探索与实践,获国家优秀教学成果二等奖。拥有一支由计算机软件硕士十余人组成的专业软件研究开发团队。江西财经大学现代教育技术中心主要负责数字化校园建设的网络基础服务研究,江西财经大学信息系统的规划、设计、开发,提供技术服务支持;负责学校校园网、校园卡系统的建设。现代教育技术中心完成纵、横向科研项目12项,在研项目3项,其中省级以上9项。获得省部级科技进步三等奖以上3项。参编正式出版教材4部,发表教学和科研论文112篇,中心派出多人次参加国内相关内容的培训,派技术人员到校外进行合作研究。1.4.3. 项目主要负责人基本情况项目主要负责人王明文,男,汉族,1964年12月出生,教授、博士生导师,研究生学历,工学博士,江西省高校中青年学科带头人,现任江西师范大学计算机院院长,兼任江西集佳科技有限公司技术总监,主要研究领域有信息检索、程序理论与并行计算、数据挖掘、不确定性推理、管理信息系统和内容安全等。曾主持和参加多项省级、国家级课题和研究项目。承担省部级的各类科技计划项目有:序号科技计划名称项目名称起 止年 月本人在项目组中的名次完 成情 况1江西省教委科技课题学生课程学习及素质自适应测评系统2001.1-2001.12主持己完成2江西省自然科学基金并行(并发)算法程序形式化开发方法研究2001.1-2000.12主持完成(优)3国家自然科学基金实用的软件形式化方法及其开发工具的研究1998.1-2000.12第三结题4国家自然科学基金分划递推法应用于高可靠Java程序开发方法研究2001.1-2002.12第二结题5国家科技部社会公益研究项目鄱阳湖区洪涝灾害遥感动态监测系统 2002.62003.4与江西省气象科学研究所合作省气象局创新一等奖,国家气象局科技二等奖6国家自然科学基金部分计值理论和应用研究2001.1-2003.12与上海交通大学合作主持结题7教育部科技重点项目程序优化技术及其应用研究2003.1-2005.12主持结题8江西省自然科学基金并行(并发)程序优化理论研究2003.1-2005.12主持结题9教育厅科技课题参数化智能搜索引擎2001.12立项主持结题陆旭,男,汉族,1962年12月出生,研究生学历,博士研究生,高级工程师,江西财经大学现代教育技术中心主任。江西省计算机学会理事,江西省互联网协会理事,江西省高校电化教育学会理事。曾任江西财经大学电化教学部主任。现为江西财经大学信息管理学院管理科学与工程专业博士研究生,研究方向是信息安全与电子政务。主持并参与的工作是:开展数字化建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财大开展数字化校园建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财经大学信息系统的规划、设计、开发,对已经运行的系统提供技术服务支持;负责学校校园网、校园卡系统的建设,保证校园网的正常运行,为全校师生提供上网服务;承担学校计算机网络教学和远程教育系统研究、设计与开发;为制作课件的教师提供技术支持和服务;承担新校园建筑弱电工程规划与建设等。主持并完成了江西财经大学新学分制管理系统的开发、办公自动化系统的开发等。近年主持或参加的研究课题有:2001年江西省自然科学基金基于Mobile Agent的主动网络管理策略研究(0111022)、2001年江西教育厅科技项目成人高等教育学分制管理信息系统、2002年江西省教育厅教改项目现代教育技术应用模式及效益分析研究、2002年国家安全部重点项目因特网监控取证系统、2003年江西省教育厅教改项目财政学网络应用型教学教育软件设计和2006年江西省教育厅科技项目基于WEB的学分制综合管理信息系统等,曾荣获江西省科学技术进步三等奖。具体如下:序号科研课题承担任务1江西软件产品如何做大做强,江西省教育厅人文社科招标项目, 2000年主要成员12基于Mobile Agent的主动网络管理策略研究,江西省自然科学基金(0111022),2001主要成员43因特网监控取证系统,国家安全部重点项目,2002年主要成员34现代教育技术应用模式及效益分析研究,江西省教育厅教改项目,2002年主持5财政学网络应用型教学软件设计,江西省教育厅重点课题,2003年主持26成人高等教育管理信息系统,江西省高校教改省级课题重点项目,2003年主要成员27分布式社区联动消防应急系统,江西省教育厅科技项目,2004年主要成员18跨校选修管理模式的研究,江西省高校教改省级课题重点项目,2004年主要成员29高校教学多制式综合管理系统,江西省科技厅工业攻关计划项目,2005主要成员3102006-2010年上饶市电子政务建设规划,上饶市十一五和中长期发展规划项目,2005年。主要成员111教育资源综合管理与服务平台研究,江西省科技厅重点科技项目,2005年。主持212现代服务业科技发展专项规划战略研究报告,省科技厅软科学项目,2005年主要成员213基于WEB的学分制综合管理信息系统,江西省教育厅科技项目,2006年主持14基于多层安全代理的集成访问控制系统,南昌市科技计划项目,2006年9月立项。主要成员215基于角色访问控制的高校教学管理信息系统,江西省科技厅科技项目,2006年主要成员11.5. 有关本项目的现有工作基础和支撑条件项目、课题和工程情况序号项 目 名 称负责人年度项目来源或使用情况1文本自动分类中的维数约简方法研究王明文2007国家自然科学基金2实用的软件形式化方法及其开发工具的研究薛锦云1998国家自然科学基金3分划递推法应用于高可靠Java程序开发方法研究薛锦云2001国家自然科学基金4参数化智能搜索引擎王明文2001教育厅科技课题5江西软件产品如何做大做强勒中坚2001江西省教育厅人文社科招标项目6成人高等教育管理信息系统勒中坚2003江西省高校教改省级课题重点项目7高校教学多制式综合管理系统勒中坚2005江西省科技厅工业攻关计划项目82006-2010年上饶市电子政务建设规划勒中坚2005上饶市十一五和中长期发展规划项目9基于WEB的学分制综合管理信息系统陆旭2006江西省教育厅科技项目10基于角色访问控制的高校教学管理信息系统勒中坚2006江西省科技厅科技项目二、 项目实施方案2.1. 项目达到的目标及考核的主要技术、经济指标2.1.1. 主要技术指标1、 研究和设计一个基于层次分类思想的个性化推荐系统,能构建层次的用户兴趣模型和使用层次网页分类来进行个性化信息推荐。2、 整个采用struts显示/逻辑/数据处理分离的三层技术架构模型,应用Java语言,结合Jsp、servlet、Javabean、XML等技术来实现。3、 本系统的用户行为模式的分析机制是基于具有偏序关系的层次结构图来设计的,可以有效地刻画用户的类别属性。4、 本系统采用聚类和分类作为个性化推荐的基本技术,作为推荐引擎的核心技术。5、 个性化的推荐系统的推荐机制是以基于类别层次图的用户为中心,智能推送具有层次类别的资源,客观反映用户的兴趣偏好。6、 本系统实现了基于偏最小二乘统计分析理论的网页分类工具,该分类工作作为推荐引擎的重要组成部分。7、 本系统J2EE架构和Java语言实现,支持多种软硬件平台,具有跨平台无关性,具有良好的兼容性。2.1.2. 主要经济指标1、 开发基于分层的个性化推荐软件产品,该产品所具有的基于层次类别图的用户描述模型和基于层次分类理论的推荐引擎具有独创性,将会在国内的个性化服务产品中占有相当的市场份额。具备产业化的能力、拥有完全的自主知识产权,软件开发成本低。2、 该产品在电子商务、电子政务和其他需要个性化服务的系统(如数字化图书馆和办公自动化软件等)中具有广阔的市场需求基础,项目投产后实现年销售额500万元以上的销售规模,实现年利润总额为150万元以上。在此软件产品的基础上衍生出其他的个性化服务系统能使公司近三年总销售收益比率能力增强,保持净利润率收益水平平稳。2.2. 项目的主要研究(开发)内容2.2.1. 研究内容1、基于分层的用户行为分析与预测在Web使用挖掘日志预处理中,用户的会话识别是一个十分重要的工作。把用户分类为一些具有稳定兴趣的用户群,用户群的分类可以通过聚类或者用户的个人信息获取,这些用户群的类别信息采用层次表示。再结合用户群层次分类图,运用偏序关系原理,构建全部用户具有偏序结构的关键浏览路径层次图,从而达到调整用户层次类别图的目的。用户的行为与预测就依据调整的层次图进行。2、基于分层的偏最小二乘个性化内容推送偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。我们将构建在分层的偏最小二乘基础上,以用户为中心,个性化的用户资源推送模块。3、采用struts显示/逻辑/数据处理分离的三层技术架构模型,应用Java语言,结合Jsp、servlet、Javabean、XML等技术构建整个个性化推荐系统。2.2.2. 系统设计流程思路是建立具有层次关系的用户类别和具有层次关系的站点页面,根据用户提供的个人信息和已有的访问历史记录,把用户归类到不同层次的用户群,推荐不同层次的相关页面,提供个性化的推荐服务。我们的系统分为离线和在线两部分:(1) 离线部分:这是本系统的核心部分,包括Web使用数据的预处理,Web页面的预处理,Web页面的表示,特征降维和层次文本分类器的学习等。在Web使用挖掘的预处理中,运用我们新提出的方法建立具有层次类别的用户群和提取用户关键层次路径以进行会话识别,分析用户的行为。(2) 在线部分:根据后台得到的用户兴趣描述和层次文本分类器学习的参数,由推荐引擎把已有的页面和新增的页面建立各用户的推荐集,该推荐集的内容具有层次结构。Web站点文件Web使用数据Web内容Web使用数据预处理会话文件用户兴趣描述Web网页预处理特 征降 维文本表示层次网页分类器学习离线部分用户新的站点页面用户行为预测推荐规则在线部分新的站点页面层次网页分类器推荐引擎.用户.2.2.3. Web使用挖掘用户行为的分析与预测主要使用Web使用挖掘的原理和技术来实现。Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。它关注于用户和Web进行交互时的用户行为预测,而挖掘的对象正是这一交互过程中产生的数据,主要包括:Web服务器日志(包括服务器日志、客户日志和代理日志)、用户简介、注册信息、