论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc
《论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc》由会员分享,可在线阅读,更多相关《论文(设计)一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109.doc(8页珍藏版)》请在三一办公上搜索。
1、一种基于Web挖掘的图书馆服务推荐模型及其算法研究郭秋萍(郑州航空工业管理学院,河南 郑州 450015)王全兰(黄河水利委员会,河南 郑州 450002)摘要:本文基于Web挖掘的理论与技术,设计了一个图书馆服务推荐系统模型。该模型采用离线部分挖掘与在线部分挖掘相分离的思路,解决了服务推荐的实时性与准确性的平衡问题。并重点针对在线部分的推荐算法,给出了具体构建方法及其实现过程,为同类研究提供了一种有益参考。关键词:Web挖掘,服务推荐,算法构建,数字图书馆中图分类号:TP393,G250One Recommendation-System Model Of digital libraryAnd
2、 Realization Based On Web MiningGuo-qiuping(Zheng Zhou Institute Of Aeronautical Industry Management , Zheng Zhou 450015, China)Wang-quanlan(Yellow River Conservancy Commission , Zheng Zhou 450003, China)Abstract:The paper designs ong model of recommendation-system to digital library.The model adopt
3、s separating data mining of off-line part and data mining of on-line part.The idea balances efficiency and exactness of mining. Aiming at arithmetic of on-line part, the paper provides one method of arithmetic designing.This research supplied a good reference for developing the recommendation-system
4、 of digital library.Key words:Web Mining,recommendatory service,arithmetic designing,digital library随着互联网信息资源的日益增多,信息有序化程度却越来越低。用户利用现有搜索引擎虽然可以检索到海量信息,但必须对庞大结果集进行人工筛选才能获取相对有用的信息,这显然降低了图书馆服务的质量与效率。因此,能够针对每个用户的特有个性化信息,主动检索相关内容,并利用电子邮件或在线智能推荐服务,将初步机选结果回送给相应用户,将有效解决上述问题1。目前,关于图书馆的主动推荐服务研究已成为热点,本文立足于WEB挖掘
5、的理论与技术,建立了一个主动推荐系统模型,并提出一种新的图书馆推荐服务算法,较明显提高了挖掘准确性,改善了推荐服务质量,为同类研究提供了一种有益参考。1 WEB挖掘的数据源总体上说,数字图书馆中WEB挖掘的数据源主要有四种,分别是服务器端数据、客户登录数据、图书馆数据以及WEB页面数据。服务器端数据是指那些因客户访问服务器从而产生的各种相关信息,其表现形式主要有日志文件和查询数据两种,存贮位置在服务器端。常见的日志文件如:Server Logs、Error Logs和Cookie Logs等;常见的查询数据如:在线客户检索图书馆数据库时提交的查询信息等。这类数据可用于客户历史行为分析以及系统服
6、务优化调整等方面。客户登录数据是指客户通过Web界面页向服务器提交的身份认证信息。这类数据可用于客户身份识别、专业领域分类以及兴趣爱好预测等方面。图书馆数据是指在传统关系数据库中存贮的数字图书馆站点信息、客户借阅信息、馆藏文献信息等。这类数据属于图书馆的公共性数据。WEB页面数据是指在HTML或XML网页中嵌入的各种信息,包括文本、图片、语音、动画等。这类数据可用于文本挖掘、多媒体挖掘以及页面间超链接关系挖掘等方面。对于图书馆服务主动推荐算法来说,其面向对象主要是知识背景互不相同的客户群。因此,服务推荐的准确性与适合性关键取决于对那些与客户密切相关数据源的挖掘与分析。本文在下面进行的算法研究中
7、,所采用的数据源主体为服务器端数据和客户登录数据。2 图书馆服务推荐系统模型图书馆服务推荐系统的设计需要考虑推荐实时性与推荐准确性的平衡问题2。目前,大部分关于服务推荐技术的研究是以优先保证其实时性为前提来设计的,而以牺牲其推荐质量为代价。针对此不足,本文在综合考衡两者的基础上,建立如下系统模型,如图1所示。服务器端数据客户登录数据WEB页面数据图书馆数据在线部分离线部分数据预处理Web挖掘实时推荐引擎图1图书馆服务主动推荐系统模型该模型整体框架分为离线和在线两部分。离线部分又由数据预处理和Web挖掘两个子模块组成;在线部分则由实时推荐引擎子模块组成。离线部分承担数据预处理和知识挖掘等功能,该
8、部分面向的数据源通常为系统内存储的各种海量历史数据,挖掘处理所需时间较长,因此被设计为离线部分,以避免对实时性要求的影响。在线部分则承担向当前客户提供实时服务推荐等功能,该部分建立在离线部分的基础上,直接参照其所建立的知识库,针对不同客户快速生成各种推荐服务。两者之间的关系是:离线部分通过挖掘算法所产生的知识库,为在线部分提供基础性支撑;在线部分则在前者基础上,结合当前客户会话对象以及Web页面数据,及时生成符合客户个体兴趣特征的推荐服务。通过两者的相互作用,可以保证最后呈现给客户的推荐服务是准确的、最新的以及合理的。该模型由于实现了离线部分和在线部分的分离,因此即能够适应对大规模历史数据的分
9、析挖掘,又能够较明显缩短挖掘的响应时间,从而实现推荐实时性与准确性的平衡。3 图书馆服务推荐系统实现根据上面设计的图书馆服务推荐系统模型,离线部分由于是围绕历史数据进行挖掘,且在实时性方面无特殊要求,因此可采用目前已相对成熟的几种Web挖掘技术来实现,如基于聚类算法的Web使用数据挖掘、Web内容数据挖掘以及Web结构数据挖掘等3。而在线部分由于是直接面向在线客户,且要向其提供准确实时的个性化推荐服务,因此采用适合的挖掘算法将对响应时间和推荐质量至关重要。很显然,在线部分是系统成功实现的关键环节,而合适算法构建又是核心中的核心,下面本文就重点对在线部分的推荐算法构建进行研究。3.1 推荐算法构
10、建客户登录成功后,就与图书馆系统服务器建立起一个会话连接,并向服务器递交各种服务请求。此时,服务推荐系统就要根据当前客户的会话对象以及页面访问情况,动态生成一个初步结果集。该结果集在与离线部分的知识库进行参照融合后,产生可信结果集。将该可信集嵌入到服务器的客户请求响应页面中,该页面就集成有客户可能感兴趣的各种数据信息和服务链接,整体作为个性化推荐结果显示给客户。具体实现时,由实时推荐引擎模块负责初步结果集的生成,步骤是:推荐引擎首先分析客户的会话对象,获取客户当前访问页面的各种参数;然后基于这些参数计算客户的相似度;最后对客户进行聚类分析,产生个性化服务推荐的初步结果集。3.1.1 客户相似度
11、计算在计算客户相似度之前,首先需要构建一个User_Url矩阵,用来存贮某客户当前的页面访问情况。对客户当前页面访问情况的衡量有两个关键参数,一个是访问某页面的频率,即访问次数;另一个是持续访问某页面的时间,即访问时长。通常访问时长参数更能准确反应客户的兴趣度。设某图书馆网站共有n个页面组成,即其页面集Url=url1,url2,urln;当前共有m个客户成功登录访问,即其客户集User=Userl,User2,Userm。因此,该图书馆的页面访问情况就被映射成一个User_Url矩阵,其中行表示可供访问的页面集,列表示可执行访问的客户集,每个元素项tij表示Useri对urlj的访问时长(单
12、位可自定,一般为分钟),反映客户对该页面的访问兴趣度。特别的,当tij=0时,表示Useri没有访问urlj。对该图书馆在某一时间段的访问情况经过数据预处理,得到以下User_Url矩阵。为方便论证,这里仅截取其中一个片断,计6个页面,7个客户。User_Urlurl1url2url3url4url5url6User1136409User2840730User3259308User4724311User5553232User6952541User76341待添加的隐藏文字内容203典型的客户相似度计算方法有余弦相似度法和欧式距离法4。从直观上看,属于同类的事务对象在距离空间中应该互相靠近,而不
13、同类的事务对象在距离空间中应该彼此疏远。因此,本文采用欧式距离法来进行计算。设M=Ml,M2,Mn为n维空间中的一组对象,Mi、MjM,dii是Mi和Mj之间的距离,则dii的欧式距离计算公式为:dii=因此,对该图书馆当前各访问客户的距离矩阵D77的计算结果如下:D77User1User2User3User4User5User6User7User1013.6410.349.5412.858.60User213.6014.396.486.933.468.66User3414.39010.449.5412.928.60User410.346.4810.4404.455.483.32User59.
14、546.939.544.4505.234.12User612.853.4612.925.485.2307.28User78.608.668.603.324.127.2803.1.2 客户聚类分析有了距离矩阵,接下来对客户进行聚类分析。聚类算法是基于一定的距离尺度将所有对象按某种属性进行归类5。聚类后的对象具有最大的类内相似性和最小的类间相似性特征。在许多应用中,通过聚类可以发现不同背景客户群对不同内容页面的访问频率分布,以及预测各客户群的兴趣区域等6。聚类的结果是下一步产生初步结果集的重要依据。聚类分析既可以采用数据分析软件,如Matlab、SPSS等;也可以根据实际特点自行开发。本文采用自行
15、开发方式,以Delphi为平台,编写客户聚类模块。具体算法是:确定一个距离阀值,如果dii小于该值,则将第i个客户和第j个客户聚为一类。该算法核心代码实现如下:输入:在线客户集User=Userl,User2,Userm,距离矩阵DmmBeginFor I=1 to m doBeginCi=Null; /*初始化/Ci=Useri;For j=l to m doBeginIf Dij then /*若两客户距离小于阀值,则归为一类/Ci=Ci+UserjEnd;End;For I=1 to m do /*形成聚类结果/BeginIf Dij Null thenBeginFor j=I+l to
16、 m do /*继续搜索,遍历所有客户,寻找相同项/BeginIf Ci=Cj thenCj=Null;End;UserCluster=UserCluster+Ci;EndE1seContinue;EndEnd输出:客户聚类集合UserCluster。根据该算法,假设=5,则前面所举例图书馆的客户聚类集合为:UserCluster=(User1、User3),(User2、User6),(User4、User5、User7)。其中,(User1、User3)被聚类为客户组C1,(User2、User6)被聚类为客户组C2,(User4、User5、User7)被聚类为客户组C3。当然,如果阀值
17、选择不当,可能会出现元素项相交情况,就需要重新选择阀值。在实际中,阀值选择需要经过多次样本数据的模拟计算,以确定合适值。3.1.3 产生初步结果集个性化服务推荐初步结果集,就是对于每一个客户聚类组,找出对其具有较高推荐(价)值的页面集合。某客户组兴趣页面集的计算需要借助User_Url矩阵。根据数理统计中值理论,在该矩阵中某页面urlj在某客户组Ci的权值由如下公式计算:Weight(Ci,urlj)= 其中表示某客户组Ci中客户的个数;w(urlj,user)表示user在urlj页面上的停留时间。由此,可以计算出每个页面对于每个客户组的权值。显然,对每一客户组而言,那些与之具有较高权值的页
18、面就构成了针对于它的初步推荐结果集。对于前面所述某图书馆网站的User_Url矩阵及其UserCluster聚类阵,利用权值计算公式,计算其权值矩阵UserCluster-Url,结果如下:UserCluster-Urlurl1url2url3url4url5url6C11.504.007.503.5008.50C28.504.501.006.003.500.50C36.003.333.672.001.332.00设兴趣阀值=5.00,则客户组C1的推荐初步结果集为(url3,url6),C2的初步结果集为(url1,url4),C3的初步结果集为(url1)。3.2 与离线部分知识库的融合由
19、在线部分推荐算法所产生的初步结果集,其依据是对当前客户页面访问参数的聚类分析,它反映了某一时间段内客户的兴趣区域。为得到更准确地推荐结果,很显然,客户以往的历史记录将更真实反映其兴趣爱好。因此,将在线部分产生的初步结果与离线部分的知识库进行融合,能提高推荐的准确度与可信度。在融合时,首先需要根据客户登录信息找出其所属的兴趣组。然后参照该兴趣组的推荐页面集,与客户的初步结果集进行比较。其结果有三种可能,一是初步结果集是知识库推荐集的子集,此时将知识库推荐集作为最终可信集;二是初步结果集不是知识库推荐集的子集,但二者仅有极少数项不同,此时仍将知识库推荐集作为最终可信集,同时对初步结果集中的不相同项
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文设计一种基于Web 挖掘的图书馆服务推荐模型及其算法研究18109 论文 设计 一种 基于 Web 挖掘 图书馆 服务 推荐 模型 及其 算法 研究 18109
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2396368.html