基于Web的个性化服务.ppt
基于Web的个性化服务,简介个性化服务技术基于Web的个性化服务改进思路,简介,主要问题:浏览过程中总是会出现一些自己毫不关心的话题解决方法:以网站为中心-以用户为中心提供个性化服务,个性化服务(Personalization)1,尽可能使得自己的每个用户在浏览该商业网站时都有他就是该网站的唯一用户的感觉尽可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化,Web挖掘的定义1,Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services,Web挖掘(Web Mining)分类2,Web使用挖掘Web内容挖掘Web结构挖掘,个性化服务的表现形式,推荐的超链接列表推荐的商品列表(电子商务)推荐的广告列表经裁剪的文本或图像列表,基于Web的个性化服务,简介个性化服务技术基于Web的个性化服务改进思路,个性化服务技术,协同过滤技术(CF,Collaborative Filtering)数据挖掘技术(DM,Data Mining),协同过滤技术3,KNN技术(K-Nearest Neighboring)基于聚类(Clustering-based)的协同过滤基于项目(Item-based)的协同过滤,协同过滤技术的缺陷,需要用户提供主观的评价信息不能处理大规模的数据量用户的评价信息可能会过时使用不方便,数据挖掘技术,关联规则(Association Rules)发现序列模式(Sequence Pattern)发现聚类(Clustering)技术Web挖掘(Web Mining)技术,Web挖掘技术的优点,不需要用户提供主观的评价信息可以处理大规模的数据量用户访问模式动态获取,不会过时使用方便,基于Web的个性化服务,简介个性化服务技术基于Web的个性化服务改进思路,基于Web的个性化服务,基于Web使用挖掘的个性化服务基于Web使用挖掘和Web内容挖掘的个性化服务,基于Web使用挖掘的个性化4,基本思路:分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务,基本过程,离线部分数据预处理总体使用特征获取在线部分推荐引擎,数据预处理5,数据清洗(Data Cleaning)会话识别(Session Identification)浏览页识别(Pageview Identification)事务识别(Transaction Identification)路径完善(Path Completion)用户识别(User Identification),数据预处理的结果,浏览页集合P表示为:P=p1,p2,pn用户事务集合T表示为:T=t1,t2,tm每一个事务t T均表示为为浏览页集合P的n维向量:t=,总体特征获取,使用聚类算法得到不同的事务聚类同一个事务聚类内用户之间的浏览模式尽可能相似,而不同事务聚类中用户之间的浏览模式尽可能不同给定事务聚类c和显著性阈值,事务聚类c的总体使用特征prc的计算方法如下:prc=|p P,weight(p,prc)weight(p,prc)=,推荐引擎,根据当前的用户会话产生实时的推荐集用户当前会话S可以表示为:S=s1,s2,sn总体使用特征C可以表示为:C=w1C,w2C,wnC,推荐引擎,使用余弦相似性函数来计算C和S之间的匹配系数:,计算浏览页p的推荐系数Rec(S,p):,基于Web使用挖掘和Web内容挖掘的个性化6,基于Web使用挖掘的个性化服务的问题:商业网站的用户使用数据比较少网站内容变化比较频繁基本思路:在基于Web使用挖掘的基础上,根据浏览页内容之间的相似性为用户提供个性化服务,基本过程,离线部分数据预处理内容特征获取在线部分推荐引擎,数据预处理,从文本数据和元数据中抽取内容特征内容特征权重的计算方法:元数据而的权重由商业网站的设计者提供文本内容特征而言的权重由词频反文献频率(TFIDF)确定,数据预处理的结果,浏览页p表示为内容特征空间上的k维向量:p=fw(p,f i)为浏览页p在特征f i上的权重必须对将元数据与文本内容特征进行一致化处理,内容特征获取,浏览页内容特征矩阵的行列互换,每个内容特征看作浏览页空间上的n维向量使用聚类算法对内容特征进行聚类,每一个内容特征聚类ci由一系列内容特征组成给定内容特征聚类G和显著性阈值r,其内容特征CG的方法如下:CG=|p P,weight(p,CG)r weight(p,CG)=,推荐引擎,用户当前会话S可以表示为:S=s1,s2,sn内容特征C可以表示为:C=w1C,w2C,wnC,推荐引擎,使用余弦相似性函数来计算C和S之间的匹配系数:,计算浏览页p的推荐系数Rec(S,p):,基于Web的个性化服务,简介个性化服务技术基于Web的个性化服务改进思路,基于Web的个性化服务,基本思路:在上述个性化服务的基础上进一步引入Web结构挖掘如果有许多浏览页都同时链接到浏览页A和浏览页B,则可以认为浏览页A和浏览页B之间具有一定的相关性,如果一个用户访问了浏览页A,则浏览页B对该用户而言很可能是有价值的,从而可以在推荐列表中加上浏览页B,基本过程,离线部分数据预处理结构特征获取在线部分推荐引擎,数据预处理,通过Crawler构造出网站内部浏览页之间的相互链接情况每个浏览页p可以表示为所有浏览页空间上的n维向量:p=,结构特征获取,使用聚类算法对结构特征进行聚类,每一个结构特征聚类ci由一系列结构特征组成给定结构聚类s和显著性阈值v,其结构特征prs的计算方法如下:prs=|p P,weight(p,prs)weight(p,prs)=,Reference:M.Perkowitz and O.Etzioni.Adaptive Web sites:automatically synthesizing Web pages.In Proceedings of 15th National Conference on Artificial Intelligence,Madison,WI,1998.S.Chakrabart.Data mining for hypertext:A tutorial survey.ACM SIGKDD Explorations,1(2),pages 1-11,2000.D.Dillsus and M.J.Pazzani.Learning Collaborative Information Filters.In Proceedings of ICML98.Pp.46-53.B.Mobasher.A Web personalization engine based on user transaction clustering.In Proceedings of the 9th Workshop on Information Technologies and Systems(WITS99),December 1999.R.Cooley,B.Mobasher,and J.Srivastava.Data Preparation for mining World Wide Web browsing patterns.Journal of Knowledge and Information Systems,(1)1,1999.B.Mobasher,H.Dai,T.Luo,Y.Sun,and J.Zhou.Integrating Web Usage and Content Mining for More Effective Personalization.in Proceedings of the International Conference on E-Commerce and Web Technologies(ECWeb2000),September 2000,Greenwich,UK.,