基于WEB日志的连续频繁路径挖掘算法毕业论文.doc
《基于WEB日志的连续频繁路径挖掘算法毕业论文.doc》由会员分享,可在线阅读,更多相关《基于WEB日志的连续频繁路径挖掘算法毕业论文.doc(13页珍藏版)》请在三一办公上搜索。
1、基于 w e b日志的多元线性回归连续频繁路径挖掘算法1 引 言 we b站点的日志数据记录了用户浏览 we b站点时的大量路径信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人员可以用来对网站的结构进行优化和页面重组基于web日志,研究频繁浏览路径已成为 web日志挖掘的热门课题目前的挖掘算法主要集中在以下几个 问题展开: 1.采用什么值作为算法的最基本分析依据,有些算法利用浏览次数作为研究依据 ,求得的浏览路径不全面;有些算法虽考虑到了浏览时间、 浏览次数及浏览内容的长度等因素,采用兴趣度作为算法基本要素, 但兴趣度定义比较模糊,不能准确说明用户对网页感兴趣程度; 2
2、.采用何种存储结构表示 web日志数据文件;有些算法基于矩阵实现挖掘,算法无法表现可重复浏览路径等等首先考虑 web 日志中浏览次数,浏览时间和浏览接收字节数等因素,采用线性回归的方式计算用户的浏览兴趣度,得到更全面的兴趣度其次采用树存储日志中的重复、连续、回溯路径,即只需访问一次数据库,建立完整的浏览路径树最后采用倒序单子树序列口求得频繁路径本文基于web日志提出一种新的频繁路径的挖掘算法首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出w eb日志中连续、重复的浏览路径,最后在we b浏览树上进行分析挖掘频繁浏览路径。该算法经
3、实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理2 算法相关描述 2 .1 线性 回归兴趣度 2 .1 .1 问题提出 对 web日志中频繁路径的挖掘首先取决于兴趣度的大小,目前用户浏览兴趣度的求法大 多采用兴趣度浏览时间*浏览次数浏览字节数的方法,这样的兴趣度公式 不确切、不全面,说明力不够求得的浏览兴趣度值差异较大,不易发现其规律由 w e b日志,我们得知用户对网页感兴趣程度与浏览时间、浏览次数、浏览字节数有关,经实验计算分析,兴趣度与web日志中的三要素线性相关 2 .1.2 解决方法 线性回归方法是一种数学优化技术 , 它通过最小化误差的平方和找到一组数据的最佳函数
4、匹配本文利用线性回归误差小,数据计算精度高的特点,计算的兴趣度值更符合实际,能为下一步建立浏览树提供更可信的数据 本文设定浏览兴趣度为因变量 y,浏览次数、浏览时间、浏览字节数分别为自变量 ,采用最小二乘法理论得到多元线性回归方程数学模型为由给定的数据库中一部分数据,求得线性回归系数因而确立回归方程建立了回归方程后,进行显著性检验,确认建立的回归模型是否很好地拟合了原始数据,即回归方程是否有效,利用残差分析,确定回归方程是否违反了假设理论检验回归方程有意义后,利用回归方程进行兴趣度的预测本文中,所有自变量都可由w e b日志得到,但因变量兴趣度y不能直接得到,于是首要问题是得到固定的y值兴趣度
5、即用户对 网页感兴趣 的程度,兴趣度通常可以大致分为四种情况:特别感兴趣, 一般感兴趣,偶尔感兴趣,不感兴趣每种情况均表示一个范围,故不能将其直接定义为某一个具体的数值 我们可以将其按百分制的形式欲以离散化赋值(由实验计算设定经验值) : 定义用户最感兴趣的页面的兴趣度为100 ,其他类兴趣度的取值范 围分别为80以上 ,4 0 8 0 ,2 0 40 ,10 一20.在线性回归方程中,兴趣度值主观设定为每个兴趣度类别的中间值效果较好利用LINEST函数计算求得线性回归方程验证有效后,将web日志数据代入线性回归方程, 完成每个浏览页面的浏览兴趣度的预测和计算 2 .2 web浏览树 本文中w
6、eb浏览树完整记录了web日志的浏览路径信息,树中的每一个结点都是一个浏览页面,每个结点都包括页面内容和页面浏览兴趣度,树中的每棵子树都是沿着同一路径浏览的序列树中的每一条路径上的结点都可以重复、连续出现,解决了以往路径单一的问题 web浏览树结构描述见图1 2 .3 web浏览树的生成 建立web浏览树是整个算法的基础 web浏览树从根结点R开始, 每添加一个结点时,沿不同路径先查找是否结点已在树中存在 ,没查找到相应结点,则在此路径中查找到的结点下添加一个新的儿子结点对于查找到的结点,比较兴趣度,由不同需求可以生成三棵不同浏览树 若选取结点兴趣度最小的,可以生成严格浏览树;若选取结点兴趣度
7、最大的,可以生成理想浏览树;若取兴趣度平均值,可以生成一般浏览树这样生成的浏览树可以从不同角度反映用户浏览网页情况,使整个算法更有实用价值 算法1 描述了一般浏览树的生成算法.以下实例均以一般浏览树为例 算法1 web浏览树生成算法 输人 : web日志转换成的数据表。 输出 : we b浏览树 算法具体描述: 假定w eb日志数据库中有n条记录,算法l需扫描一次数据库 , 生成web浏览树 , 时间开销为0( n ) 文献 7 建立访问树仅表现浏览页面在web日志记录中出现次数,不能准确反映用户的真实兴趣本文综合web l og s中的浏览次数 ,浏览时间和接收字节数等信息增加了一个兴趣度属
8、性,使用户可以在生成浏览树的同时,就可以一目了然该页面的兴趣度值 ,可视性好也为下一步挖掘全面的、合理的频繁路径奠定基础 例1. 部分浏览记录如表1所示 生成的一般web浏览树如图2所示 2 .4 倒序单子树序列表生成 本文频繁路径的挖掘算法不以整个浏览树为分析依据,而是将浏览树中的每一棵子树转化为倒序单子树即从浏览树的叶子结点出发,倒序产生从叶子到根的不同子树单序列本算法中不用浏览次数作为分析频繁路径的依据,故不用生成Ta b邻接表,简化了算法,缩短算法时间例2 .生成图2所示的we b浏览树的倒序单子树序列,如图3所示 2 .5 RT树生成 在浏览页面的过程中,每一条浏览路径中的每个页面的
9、兴趣度会随着页面的不断重复、 回溯而发生变化,在倒序单子树序列的基础上形成RT树,重新确定了单子树上每个结点的兴趣度值RT树综合每个单子树序列,分别生成以每个结点为根的子树 算法2 .RT树生成算法 输人:倒序单子树序列 输出:RT树 算法具体描述: 生成的RT树是判断频繁路径的直接依据,RT树上结点的兴趣度为最终的兴趣度,根据给定的兴趣度闽值,确定最后的频繁路径假定倒序单子树序列个数为 m,浏览的页面个数为,算法2的时间开销为O( m * n ) 本文在算法上进行了改进,生成的 RT树是根据兴趣度生成的,故不用计算浏览次数总和,没必要再合并 R T树,因此简化了算法 例3生成图3中每个结点的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 WEB 日志 连续 频繁 路径 挖掘 算法 毕业论文

链接地址:https://www.31ppt.com/p-2396143.html