第15章数据挖掘在电子商务中的应用要点课件.ppt
商务数据挖掘与应用案例分析,第15章 数据挖掘在电子商务中的应用,15.1 应用概述 15.2 主要应用领域 15.3 案例1:基于关联分析的淘宝网推荐 15.4 案例2:协同过滤技术在电影推荐上的简单应用,15.1 应用概述,电子商务(E-Commerce,简称EC)是指在互联网(Internet)、企业内部网(Intranet)和增值网(Value Added Network,简称VAN)上以电子交易方式进行交易及其它相关服务活动,它是传统商业活动各环节的电子化和网络化。电子商务包括电子货币交换、供应链管理、电子交易市场、网络营销、在线事务处理、电子数据交换、存货管理和自动数据收集系统等方面。随着互联网的迅速普及,电子商务已如雨后春笋般地迅速发展壮大起来。目前很多大型企业都拥有自己的商务网站。但是,电子商务在给人们带来方便快捷的同时,也给人们带来了不少的难题和挑战。对企业来说,需要从海量的交易信息中找出有用的、有潜在价值的信息,制定更好的经营策略;对消费者来说,需要花费大量的时间和精力来浏览网上海量的商品信息,并从中比较和选购商品。数据挖掘技术可以从海量的数据中抽取出潜在的、有价值的知识、模型或规则,从而为企业或消费者提供决策支持。例如,企业可以采用数据挖掘技术进行客户细分、高价值客户挖掘和客户流失预测,还可以进行个性化推荐以改善用户体验,从而提升用户从点击到购买的转化率。,15.2 主要应用领域,15.2.1 网络客户关系管理15.2.2 网站设计优化15.2.3 推荐系统,15.2.1 网络客户关系管理,网络客户关系管理(Electronic Customer Relationship Management,简称E-CRM)是企业在信息化中基于Internet平台的客户关系管理,其核心思想是在电子商务环境中,CRM具有在企业与客户、供应商及业务伙伴之间建立无缝的协作能力,通过包括Web在内的多种渠道来跟踪和管理与客户进行的交流和交易,从而实现企业与每位客户的最大程度与最大自由的互动。数据挖掘可在客户获取、客户细分和客户保留三方面优化网络客户关系管理质量。,15.2.2 网络设计优化,从网站的用户浏览日志文件中挖掘客户访问页面的使用模式,可以为改良网站的内容布局提供良好的建议。对Web站点的优化可以从两方面来考虑:一是发现客户访问页面的相关性,在密切相关的网页之间增加互通链接;二是发现用户的期望位置,如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接。以著名的电子商务平台亚马逊为例,其Web站点优化主要体现在以下几方面:(1)产品搜索和在线采购(2)相关产品展示(3)基于历史行为的产品推荐(4)可定制的推荐记录(5)全面的导航条,15.2.3 推荐系统(1),电子商务推荐系统是将数据挖掘中的推荐技术应用到电子商务领域的范例。随着电子商务活动的开展,电子商务平台可以收集到大量用户相关数据,如用户交易数据、用户注册数据、用户评分数据、用户咨询数据等。这些数据中蕴含着丰富的用户偏好信息,推荐系统可以对用户行为和个人信息进行分析处理,从中获取用户兴趣信息并进行推荐。协同过滤推荐是目前研究最多应用最广泛的推荐算法,包括基于内容的协同过滤方法、基于模型的协同过滤。其他推荐方法还包括基于效用的推荐和基于知识的推荐等。协同过滤在电子商务中多用于在线动态推荐,而关联分析则常用于离线静态推荐。目前,大型电子商务系统,如Amazon、eBay和Dangdang,都不同程度地使用了电子商务推荐系统。以著名的电子商务网站淘宝网为例,其推荐功能体现在以下几方面:,15.2.3 推荐系统(2),图15-3“掌柜热卖”推荐示例,图15-4“基于浏览记录的推荐”示例,图15-5“猜你喜欢的”推荐示例,15.3 案例1:基于关联分析的淘宝网推荐,15.2.1 商业理解15.2.2 数据理解阶段15.2.3 数据准备阶段15.2.4 建模阶段,15.2.1 商业理解,面对电子商务网站上海量和纷繁多样的商品,很多用户感到无所适从,他们需要花费大量时间来挑选自己需要或者感兴趣的商品。网上销售与传统的店面销售不同,没有售货员提供现场咨询服务。但是,网上销售可以利用互联网的优势,为用户提供更优质的服务。由于服务器会记录用户在浏览电子商务网站时的所有行为,因此,企业很容易收集用户的浏览记录、交易信息及偏好数据。在个性化推荐技术的关联规则分析中,最典型的例子是购物篮分析,其目标是发现交易数据库中不同商品之间的联系强度,挖掘用户潜在购买模式,并将这些模式所对应的服务或产品展示给用户,为其提供参考,从而提高用户的满意度及购买率。,15.2.2 数据理解阶段,表15-1 数据集属性信息,表15-2 部分数据实例,本案例采用淘宝网的用户交易数据进行分析,每条交易记录包括记录号和顾客购买的商品,表15-1给出了数据集中各属性名及意义,表15-2为部分交易实例数据示例。,15.2.3 数据准备阶段(1),表15-3 部分预处理后的数据,原始数据集可能包含了一些冗余的数据、空值和零值等,这种格式不能作为关联规则分析算法的输入,需要对数据进行预处理。本案例的预处理中包括过滤掉原始数据集中的商品数量和单价这两个属性。同时为了保护顾客的隐私,过滤了用户名属性,并且用交易号来唯一表示顾客的每一次交易。处理后的数据集如表15-3所示。,15.2.3 数据准备阶段(2),表15-4 布尔矩阵格式数据集,表15-5 事务处理格式数据集,在Clementine软件进行关联规则挖掘时,必须把数据格式转换成Clementine软件能处理的格式。通常有两种格式:一种是布尔矩阵形式,即每行表示一条交易记录,列中的T/F值表示该商品是否有在相应的交易记录中出现,T表示有出现,F表示没有出现(表15-4列出转换后的前3条记录信息);一种是事务处理格式,即每行对应一个交易号和一个商品项(表15-5列出了前3个事务对应的事务处理格式),15.2.4 建模阶段,表15-6 Apriori算法运行结果,利用Clementine中的Apriori算法进行关联规则分析,设定最小支持度1%,最小置信度50%,输入为布尔矩阵格式的交易数据(如表15-4),输出商品的关联规则及相应的支持度、置信度和提升度信息(如表15-6)。表中显示“高跟鞋”和“洗发水”、“童装”和“玩具”、“文具”经常被一起购买。,15.3 案例2:协同过滤技术在电影推荐上的简单应用,15.3.1 商业理解15.3.2 数据理解与准备15.3.3 建模阶段15.3.4 模型评估与部署,15.3.1 商业理解,在本案例中,关联规则分析主要是从大量的电影评论记录中提取出稳定的电影间的关联规则,它表示对应的电影经常被同时评价,这个组合通常是稳定的,一般可用于捆绑推荐等静态推荐。而协同过滤则是结合当前用户及其他用户的交易或打分记录进行推荐。例如,对于指定用户的电影评分记录,可找到与其评分相似的其他用户,并根据这些用户对其他电影的评分来预测该用户的评分,以此对该用户进行推荐评分较高的电影。而电影推荐网站积累的电影记录数据量巨大,不同用户的评分也时刻更新变化,因此电影推荐网站适合采用协同过滤技术来进行此类更新频率较快的动态推荐,以满足用户对获取最新电影推荐的需求。,15.3.2 数据理解与准备,表15-8 MovieLens的u.data表部分数据,本案例使用GroupLens Research的经典数据集MovieLens,该数据集包含3个重要的数据表,分别是u.data、u.item和u.user,其中u.data记录了943个用户对1682部电影的100000个评分,u.item记录了1682部电影的信息,u.user描述了943个用户的相关信息。我们主要用到u.data表的UserID、ItemID和Rating属性,表15-7给出了u.data部分数据示例。,15.3.3 建模阶段(1),采用开源的Apache Mahout项目中的协同过滤软件包cf来对MovieLens数据集进行分析预测。主要有以下4个步骤:(1)构建模型针对电影评分数据,构建适合分析的数据模型,用于存储用户,电影和评分。这里我们用的是文件u.data,去掉Timestamp属性,建立FileDataModel。(2)计算用户相似度为了确定所分析用户的相邻用户集,要先经过用户相似度的计算。这里采用夹角余弦的相似度计算方法来计算相似度。(3)查找K个相邻用户经过用户相似度计算,接着要确定选取哪些用户为最相似用户。通常相似度较高的用户,都归到相邻用户集。这里K值的设定依赖于实际数据特点或主观经验。为简单起见,我们取最相似的5个用户作为相邻用户集。(4)构建推荐引擎,15.3.3 建模阶段(2),表15-9 前6个用户预测评分最高的5部电影推荐,通过以上4个步骤,借助Apache Mahout项目的cf包,我们可以简单地构建一个基于用户协同过滤的推荐引擎,并为每个用户提供电影推荐。推荐结果如表15-8所示。,15.3.4 模型评估和部署,如何对构建的推荐引擎进行评估,使评价推荐的物品与实际相符,这是推荐系统另外需要考虑的问题。一方面,要考虑推荐的多样性。一般从单用户的角度查看系统给出的推荐是否具有多样性,或者从系统多样性的角度(也称覆盖率)查看系统是否能够提供给所有用户丰富的选择。另一方面,要考虑推荐的精度。习惯的做法是利用一部分数据作为训练集,而留出一部分实际用户评分数据作为测试集,通过预测评分与实际评分之间的均差、均方根等大小来评估。通常是值越小,说明推荐的情况和实际值越接近,若其值为0说明完全吻合。,