欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    运营商商业智能计算架构设计(1)(1).ppt

    • 资源ID:2340809       资源大小:4.42MB        全文页数:76页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    运营商商业智能计算架构设计(1)(1).ppt

    运营商商业智能计算架构设计,中山大学海量数据与云计算研究中心 吕威,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop)Map-Reduce方法Classification(k-NN)的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),Part 1智能计算架构设计,定义、概念,商业智能架构实例,开源软件,智能计算例子,运营商智能计算架构,Weka介绍,商业智能Business Intelligence,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP(联机分析处理)和数据挖掘等技术的综合运用。,Lots of data is being collected and warehoused Web data,e-commercepurchases at department/grocery storesBank/Credit Card transactionsComputers have become cheaper and more powerfulCompetitive Pressure is Strong Provide better,customized services for an edge(e.g.in Customer Relationship Management),Commercial Viewpoint,Mining Large Data Sets-Motivation,There is often information“hidden”in the data that is not readily evidentHuman analysts may take weeks to discover useful informationMuch of the data is never analyzed at all,The Data Gap,Total new disk(TB)since 1995,Number of analysts,数据仓库,数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库之父William H.Inmon提出的定义数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。,数据集市,外部数据,用自顶向下的方法构建数据仓库,数据集市,建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性,操作数据,用自底向上的方法构建数据仓库,数据集市,建立部门数据集市限制在一个主题区域快速投资收益 区域自治 设计的可伸缩性强对相关部门的应用容易复制 对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标,操作数据(局部),数据集市,企业数据仓库,联机分析处理(OLAP),联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理(OLTP)明显区分开来。OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。,联机分析处理(OLAP),OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。,联机分析处理(OLAP),切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。,OLAP的分析方法(一)切片、切块,OLAP的分析方法(二)钻取,按时间维向下钻取,按时间维向上钻取,60,OLAP的分析方法(三)旋转,OLTP、ROLAP与MOLAP模式,ROLAP的星型模式(Star Schema),事实表:用来存储事实的度量值和各个维的码值。维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。,Budget,MOLAP的多维立方体(Multicube),数据组织形式,RDB数据组织-MDDB数据组织-关系表中综合数据的存放 多维数据库中综合数据的存放,What is Data Mining?,Many DefinitionsNon-trivial extraction of implicit,previously unknown and potentially useful information from dataExploration&analysis,by automatic or semi-automatic means,of large quantities of data in order to discover meaningful patterns,What is(not)Data Mining?,What is Data Mining?Certain names are more prevalent in certain US locations(OBrien,ORurke,OReilly in Boston area)Group together similar documents returned by search engine according to their context(e.g.Amazon rainforest,A,),What is not Data Mining?Look up phone number in phone directory Query a Web search engine for information about“Amazon”,Draws ideas from machine learning/AI,pattern recognition,statistics,and database systemsTraditional Techniquesmay be unsuitable due to Enormity of dataHigh dimensionality of dataHeterogeneous,distributed nature of data,Origins of Data Mining,Machine Learning/Pattern Recognition,Statistics/AI,Data Mining,Database systems,Data Mining Tasks,Description MethodsFind human-interpretable patterns that describe the data.,Prediction Methods Use some variables to predict unknown or future values of other variables.,Data Mining Tasks,Data Mining Tasks.,Data Mining,Clustering Descriptive,Classification Predictive,Association Rule Discovery Descriptive,Sequential Pattern Discovery Descriptive,Regression Predictive,Deviation Detection Predictive,商业智能例子,1,超市分析交易数据,安排货架上货物摆布,以提高销售 额,3,保险公司分析以前的客户记录,决定哪些客户的潜在花费是昂贵的,2,信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些人没有,商业智能例子,4,汽车公司分析不同地方人的购买模型,有针对性地发送给客户喜欢的汽车手册,6,税务局分析不同团体的交所得税的记录,发现异常模型和趋势,5,广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息,Part 1智能计算架构设计,定义、概念,商业智能架构实例,开源软件,智能计算例子,运营商智能计算架构,Weka介绍,运营商智能计算架构设计,怎么搭建整个架构呢?,数据仓库,奇异点分析,分类模块,OLAP,关联规则模块,预测模块。,数据仓库的建立,1)选择合适的主题(所要解决问题的领域)2)明确定义事实表 3)确定和确认维 4)选择事实表 5)计算并存储fact表中的衍生数据段 6)转换维表 7)数据库数据采集 8)根据需求刷新维表 9)确定查询优先级和查询模式。,任务确定,领域任务确定,领域任务确定,领域任务细化1,优化交往圈。包括交往圈聚类、重复客户认定等。交往圈可作为一个群体,对其进行相应的精确营销。这个具体可以用分析通话的重复次数、使用聚类算法等方法来实现。如果有客户的话务信息,整个交往圈聚类分析可以实现。其中一个交往圈子中的关键人物的选择可以通过类似pagerank算法来实现(探索)。,领域任务细化1,客户流失预警。主动流失的客户对企业影响最大,所以提前预测较为可能流失的客户可以使得企业进行相关的业务调整来挽留客户。这个也是通过对话务的分析来进行预警,很多运营商做过相关的项目,所以有一些经验可以借鉴,但需使用数据挖掘算法实现。,领域任务细化1,校园市场调研。通过对高校这样一个大群体进行调查,可以分析学生群体的特点以及需求,使得市场部制定出更合理的优惠措施,而在校园做这样的调查较为合适。此工作可以通过在学校内部派发问卷赠送小礼品的方式或者是在学校论坛发布调差报告的形式实现,需要较多人力。,领域任务细化1,新话费套餐沙盘推演。这种模型可以把一种新的话费套餐的数据输入从而得出相关客户信息。这种模型的建立需要大量的数据作为支撑,运营商做出如此巨大的话费变动情况较少,所以历史数据比较少,这种情况下面即使算法效率再高也很难做出相对准确的结果(探索)。,客户流失分析 稳定客户 潜在流失客户客户社群发现 联系紧密的小团体 潜在客户社群客户多重身份识别 换号 多个号码,领域任务细化2,客户价值发现 PageRank算法 PersonRank算法竞争对手分析 竞争对手新增用户 竞争对手大客户分析 竞争对手跟本网业务分析,领域任务细化2,大客户分析 大客户特征分析 大客户流量分析 大客户价值分析因特网服务规律发现潜在的租用虚拟专用网络服务的顾客发现增加电话线路租用需求的客户通话时段的规律,领域任务细化2,漫游用户分析 漫游用户分布分析按市场细分的客户(如个人客户、政府部门、企业客户)通话规律国际长途的通话模式,领域任务细化2,架构过程,市场部、运营部,市场部、运营部,学习模型的实现,数据仓库建立,数据清洗,反馈,结果分析,挖掘算法的实现、改进,数据表合并、新属性生成、不等长数据的滑动,数据事实表的确定,流失预警算法框架,聚类出已知流失用户特征,训练集,分类算法,需要分类的用户数据,训练集,用户流失集,流失用户的类型,决策支持,结果分析,开源数据分析软件Weka介绍,开源全面规范WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到,开源数据分析软件Weka介绍,WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。,学生做商业智能计算项目过程,深入学习,实际项目,开源软件代码,理论学习,2011.9-,2011.6-2011.8,2011.3-2011.5,2010.9-2011.2,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop)Map-Reduce方法Classification(k-NN)的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),大规模商业智能计算架构,运营商客户量海量数据,运营商需求多且细,数据挖掘算法效率问题,云化 MapReduce方法,云计算网络发展的必然结果,云计算简化实现机制,Part 2 大规模智能计算(云挖掘Hadoop),Map-Reduce方法Classification(k-NN)算法的MapReduce化,Whats Mapreduce,Parallel/Distributed Computing Programming Model,Input split,shuffle,output,Shuffle Implementation,Partition and Sort Group,Partition function:hash(key)%reducer numberGroup function:sort by key,Hadoop MapReduce Architecture,Master/Worker ModelLoad-balancing by polling mechanism,Nearest Neighbor Classifiers,Basic idea:If it walks like a duck,quacks like a duck,then its probably a duck,Nearest-Neighbor Classifiers,Requires three thingsThe set of stored recordsDistance Metric to compute distance between recordsThe value of k,the number of nearest neighbors to retrieveTo classify an unknown record:Compute distance to other training recordsIdentify k nearest neighbors Use class labels of nearest neighbors to determine the class label of unknown record(e.g.,by taking majority vote),Definition of Nearest Neighbor,K-nearest neighbors of a record x are data points that have the k smallest distance to x,MapReduce:kNN,Input,Map,Reduce,Output,MapReduce化算法提高效率,单个节点并非跑不出结果:大数据集上需要一天、一周才能出结果。有时候有较高实时要求的任务一小时出结果都太慢,利用多个节点进行MapReduce云化,可以利用空置设备同步运行,提高速度,对有较高实时性要求的算法有好处,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop)Map-Reduce方法Classification(k-NN)的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),数据分析带来的隐私保护问题,也可挖掘分析出感兴趣的私人信息。云挖掘中更加涉及到客户端把隐私数据交付给云端进行挖掘,客户对此会产生疑虑。,数据挖掘可以挖掘潜在规律、辅助决策、检测异常模式、恐怖活动和欺诈行为,隐私保护,安全云挖掘,在客户端向云端传送隐私数据时,可先进行随机化变换、加密,既不泄露隐私,又能保证挖掘结果的大致准确隐私保护数据挖掘,安全云挖掘,Privacy-preserving Data Mining,Data conversion,cryptology,A Random Rotation Perturbation Approach to Privacy Data ClassificationDeriving Private Information from Randomized Data,Privacy-Preserving Data miningA Framework for High Accuracy Privacy-Preserving Mining,Hide sensitive individual data values from the outside world,A valid and effcient decision model based on the distorted data can be constructed,设 M 是一个Hausdorff 拓扑空间,若对每一点 都有P 的一个开领域 U 和 的一个开子集同胚,则称 M 为 n 维拓扑流形,简称为 n 维流形.,微分流形:保持拓扑特性,几种流形学习算法,1,局部线性嵌入(LLE)S.T.Roweis and L.K.Saul.Nonlinear dimensionality reduction by locally linear embedding.Science,vol.290,pp.2323-2326,2000.,3,拉普拉斯特征映射(Laplacian Eigenmap)M.Belkin,P.Niyogi,Laplacian Eigenmaps for Dimensionality Reduction and Data Representation.Neural Computation,Vol.15,Issue 6,pp.1373 1396,2003.,2,等距映射(Isomap)J.B.Tenenbaum,V.de Silva,and J.C.Langford.A global geometric framework for nonlinear dimensionality reduction.Science,vol.290,pp.2319-2323,2000.,LLE算法示意图,MDS 示意图,Dimensionality Reduction:ISOMAP,Construct a neighbourhood graphFor each pair of points in the graph,compute the shortest geodesic distances,By:Tenenbaum,de Silva,Langford(2000),安全云挖掘,怎样并行化进行微分流形变换,同时不影响挖掘结果,使用微分流形完成了几个隐私保护数据挖掘算法,安全云挖掘,分析的完整架构,逐步深入细化,安全云挖掘,数据分析,数据仓库,目前国内市场主要商业智能软件厂商有:金蝶、用友、IBM、Informatica、Power-BI、ORACLE(甲骨文)、SAP、SAS、Sybase、Analyzer、微软、菲奈特、和勤,Thank You!,MajpjMVcyzj21HLfrvy96dv02lPPfYgxUS7IYmZkyEmZ0kGeYZS3bpLCkYH1lt4EK7CxmUX3ijoYSOer7ZuaVWYgz4EpZrUirVpMzzvNtf1XZw5oswSXOtFaejnOcmfE1lZgnN1RSXg8wLCG8CVQ3XPJMvodPFWcpiYJgZazNSEPNIaklYSu7qSd1UpaxmZDlpN9zW7kljfsLCLi26Yv109ffbnDH8LbUN1G6ACURQ39eG12KHL9tXsZ1jzgoCK8g1kuNOh5eFvcmVT5ZYVQt9zk3rp3qLnf02FovEXxVRxjCcFRNppiJljNiOuk6fONnyX7fyGg7sXZ49BmCN5oy9VesHpKzdjTKwjrkCEQCFDehVmGax3lrOEbw63VscA3YSijtUKoCyiLzAlVRp7l4QgPNHxvJFFDyjUVN3oHlMah0XBd4uTbkfPIhHtw0evPmYOrdhEDoPwvYhzlGplU1AU9mpyiCXH8gpPCBRYjq77VcnbXumNE1yGfyTsbSj89J63kRTKDkKUg3mdS5sJ4X5cQ8dK7oW9IkScssECQdz2O9UTlpRjAFPChjhLdzopQzwxQf8ozdzOhogwAooXpUF83BX4C3jRgjDJiiXEUDMaNz4vQ4n164vspddHvOIVuBBdMA4xp1YhiHk0vOJ8TL1BxogzVlMpmod6ianYGmksQq6NWCEd56hZF4wfaNyZcrGfNxnPiG6ZAxSkfmhJAKtNmCqbRmppeXp8inz4eq3HkWCMSORyMMX522xpHG6basNr6KQfbZsFbHjzyNlJrruLolKFcC84dqfijBO5Dy2NaBcNEBPgQrT12PgpcKx2or2YChN5DPjs80zzdtdAdTKuW4uVv9bbZu3K2SZ2aEhTlIC1UqrIWibkzwHh6p8gLv26zr01mJybfOzFc4T7kQH1IpPwOzMDnAKPLsLrznXGjFNIA9bSWWms6ibKZwQIKrMzalwbFrQJvOP1rPH8rx2KkyYqrtQk5VRwM1HSX,

    注意事项

    本文(运营商商业智能计算架构设计(1)(1).ppt)为本站会员(文库蛋蛋多)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开