用户案例数据仓库.ppt
2023年10月16日,用户案例介绍 Oracle数据中心,内容,法国电信新西兰电信,法国电信数据仓库,法国电信(France Telecom),欧洲第三大电信运营商,2000年营业额为337亿欧元在五大洲220个国家和地区拥有9100多万客户下属Orange是第二大移动运营商,实际的数据仓库案例http:/,Winter VLDB Survey 14 Sep 2005Largest Database Size,Decision Support,Sears Teradata4.63HCIA Informix 4.50Wal-Mart Teradata 4.42Tele Danmark DB2 2.84CitiCorp DB2 2.47MCI Informix 1.88NDC Health Oracle 1.85Sprint Teradata 1.30Ford Oracle 1.20Acxiom Oracle 1.13,法国电信:世界上最大的数据仓库,Winter 2003 VLDB SurveyLargest Database Size,Decision Support,数据仓库项目建设目标,建立统一的数据信息平台,实现客户资料和生产数据的集中存储。利用先进的数据仓库技术和决策分析技术为市场营销和客户服务工作提供有效的支撑:流失分析欺诈分析客户发展分析客户关系管理,目前系统规模,包含12个月的话单数据库容量为65TB,其中原始数据为25TB最大的表包含1800亿话单,项目面临的技术挑战,数据存储系统要求存储1218个月的 详单数据数据装载按小时装载详单数据,要求每天在8小时内装载5亿条详单高峰时一个小时装载6500万条详单在8小时内同时完成1亿7000万个汇总操作数据访问支持680个并发用户,支持8000 个系统用户95%的预定义查询操作在5秒钟内完成每秒钟23个查询操作,法国电信选择数据仓库平台的考虑,强大的ETL支持能力支持按小时的数据装载高效的数据访问硬件的支持:多CPU、大内存、并行处理分区技术索引技术数据库内置的分析能力高可用性7 x 24不间断运行软件的成熟性TB级数据仓库用户案例,数据仓库,数据缓冲池和操作数据存储,汇总计算计算 更新,生产数据采集和预处理预处理转换导出新数据,数据仓库系统管理,数据仓库功能管理,系统管理员操作员,错误数据处理,刷新数据集市,数据集市 1,客户资料,客户资料接收和准备质量检查转换,生产系统,数据集市 2,中央数据存储,普通用户,预处理应用,其它界面,WEB界面,高级用户,即席查询应用,应用平台,系统的逻辑结构,系统中使用的Oracle关键技术混合分区,.,.,.,混合分区的设计,按地区建立列表分区按时间建立范围分区一天以上的话单数据按天建立365分区一天以内的话单按小时建立分区,select sum(sales_amount)from sales where sales_date between to_date(01-MAR-1999,DD-MON-YYYY)and to_date(31-MAY-1999,DD-MON-YYYY);,利用分区忽略提高大表的查询性能,分区忽略:只有相关分区被访问,系统测试结果,数据访问:每秒钟23到100个并发查询操作95%的查询在1秒钟内完成,系统中使用的Oracle关键技术可传输的表空间,业务系统,数据仓库,Mar,Feb,Jan,Mar,Feb,操作系统文件的直接复制不需要数据的导入/导出,实现按小时的数据加载,OLTP,Data Warehouse,Data Marts,Archives,Informationdistribution,Staging,可传输表空间在数据仓库中的使用,举例利用可传输的表空间和分区技术实现快速数据装载,详单数据的导出,把需要传输的数据放在单独的表空间CREATE TABLE temp_jan_sales NOLOGGING TABLESPACE ts_temp_sales AS SELECT*FROM sales WHERE time_id BETWEEN 31-DEC-1999 AND 01-FEB-2000;导出数据字典EXP TRANSPORT_TABLESPACE=y TABLESPACES=ts_temp_sales FILE=jan_sales.dmp 复制数据文件和数据字典到数据仓库服务器,详单数据的导入,导入数据字典IMP TRANSPORT_TABLESPACE=y DATAFILES=/db/tempjan.f TABLESPACES=ts_temp_sales FILE=jan_sales.dmp 通过分区交换,将新数据加入目标表1.ALTER TABLE sales ADD PARTITION sales_00jan VALUES LESS THAN(TO_DATE(01-feb-2000,dd-mon-yyyy);2.ALTER TABLE sales EXCHANGE PARTITION sales_00jan WITH TABLE temp_sales_jan INCLUDING INDEXES WITH VALIDATION;,系统测试结果:数据装载,数据装载:装载包含5000万条详单的一个分区和2个索引的一个表空间文件传输:4 50数据导入到Oracle数据仓库:瞬时创建索引:750”预计算及其它运算:14合计:3226”,物化视图提高汇总数据的访问性能,查询,法国和意大利的用户在过去三个月的漫游通话总时长是多少?,使用Oracle内置的SQL分析函数,汇总 ROLLUP&CUBE抽样 Sampling排名 Rank-rank,percentile,ntile,top,bottom滑动窗口 Moving Window-avg,sum,min,max,count,variance,stddev,firstvalue同比 Period-over-period comparisons时间序列Lag报表函数sum,avg,min,max,variance,stddev,count,ratiotoreport统计函数covariance,correlation,linear regression,TimekeySales Sales_last_year Sales_change98-1 1100-.99-11200110010099-2150014505099-31700135025099-416001700-10099-51800160020099-6150014505099-7130012505099-814001200200,SELECT timekey,sales,LAG(sales,12)OVER(ORDER BY timekey)as sales_last_year,(sales-sales_last_year)as sales_changeFROM sales,举例:使用时间序列函数,系统使用情况,数据汇总:1亿7000万个汇总运算在2个小时内完成不需要专门的服务器数据访问:每秒钟23到100个并发查询操作95%的查询在1秒钟内完成,数据仓库系统为法国电信带来的好处,为各个业务部门的用户提供统一的数据视图保证数据的一致性和质量提高信息的及时性整合系统,节省投资已经将10个系统整合,未来会整合更多的系统比原来的专有系统管理更灵活,升级更容易,数据仓库系统为法国电信带来的好处,全面了解客户的使用行为,实现市场细分欺诈行为检测建立欺诈模式库及时检测客户通话行为发生的突然变化,运用模式库进行识别通过预警系统通知相关人员进行调查,“我们每天装载5亿条话单.Oracle数据仓库在实际使用中已经被证明非常稳定、可靠和具有扩展性,Jean-Luc CochennecFrance Telecom,“从Winter Corporation最近的数据库可伸缩性调查发现,法国电信的数据仓库系统无论是从数据库规模和记录数方面,都是世界上单一数据库中最大的。”,Richard Winter,March 2002“Field Experience with Large Scale Data Warehousing on Oracle”,新西兰电信数据仓库,新西兰电信简介,新西兰最大的综合电信运营商在新西兰和澳洲拥有210万用户员工数为6900多名总资产83亿新西兰元年收入55亿新西兰元业务范围:市话、长途、移动、互联网、宽带、增值业务,项目建设背景,电信市场变化开放的电信市场日益增多的竞争对手公司战略转变从扩大用户群转变为提高现有用户对企业的贡献度从大规模营销转向目标市场营销,原有系统的状况,各个系统采用不同平台缺乏数据标准数据采集和集成困难多个系统中冗余的数据,数据仓库项目概况PROBEPROactive Business Enabler,从1996年6月开始建设,1997年建成上线到2002年为止,开发了50多个主题:客户,产品,收入,通话行为,市场营销,缴费用户包括市场部、销售部和财务部等部门1400多人,Oracle在项目中的参与情况,1996 2002:设计和建设数据仓库逐步增加50个新的分析应用,目前:与新西兰电信和EDS合作实施“360 客户视图”项目建立数据仓库与业务系统的实时接口实现实时的客户细分,PROBE项目为公司带来的效益有形效益,增加收入,提高ARPU减少客户流失提高营销活动的响应率从5提高到30降低营销成本和服务成本,PROBE项目的投资回报,目标市场营销每年节省1200万元“市场赢回”计划每年增加800万元更合理的国际长途收费定价增加收入与节约成本,每年700万元,PROBE为外部客户服务,向外部客户出售统计分析结果Vision:800客户按地区、时段、服务类型价格:每月一次:25$/月每周一次:85$/月,议程,项目概况项目实施方法数据仓库技术方案,建设原则需求驱动,从多种渠道识别客户实现精确营销提升客户价值,业务目标,建设原则实用性紧密配合业务部门的市场经营活动,客户维系:流失客户名单营销活动管理:营销活动名单,反馈分析新业务开发:产品定价,关联分析,发展战略,规划,网络管理,目标市场营销,客户满意度,销售,财务表现,Customer and Product Information,运营效率,制订企业发展战略监控其执行情况,Business Intelligence For Telecom,建设方法整体规划,分步实施,需求预测能力规划投资预测,通信能力分析通信质量分析业务覆盖分析,欺诈检测业务开展业务使用供应链分析,客户流失分析客服中心分析服务质量保证,市场细分响应模型营销活动ROI分析,新产品设计价格模型,收入总量及变化收入结构分析缴/欠费分析,整体规划的实现,统一规划:数据模型数据获取策略元数据,确定新增应用的优先级,效益 低 高 不可能 下次考虑 没有价值 目标应用,高 低,成本和风险,数据仓库的效益、成本和风险严格的投资回报分析,效益:我们能通过这个项目的实施获得什么?有形:增加收入、降低成本无形:工作效率提高、企业更“智能化”成本:为了实现这些收益需要付出什么代价?一次性成本持续性成本风险:会遇到哪些障碍?,螺旋递增式建设方法,每次迭代目标明确,快速见效滚动投资,每年追加费用是初始投资的1520,应用推广,领导带头使用设置专职的业务分析员系统使用情况统计注重对业务人员的培训,议程,项目概况项目实施方法数据仓库技术方案,PROBE 系统架构和数据流,加载,20+内部源系统,(12 CPU,3Tb disk),Tape,ftp,DB link,PROBE,外部信息源,email,ftp,CD,Oracle Designer,元数据库,Oracle Portal and Discoverer,报表,Oracle 9iAS,抽取,OLAP分析和数据挖掘,内部系统,SQL,andQuery Builder,DB link,ftp,ftp,CD,Oracle 9i release 2,外部机构,PROBE 数据模型分层设计,内部和外部信息源,加载,Staging Area,Feed Control,任务调度管理,原子层,(relational schema),访问层,(star/snowflake schema),PROBE,数据挖掘和分析,SQL,andQuery Builder,Oracle Portal,Oracle Discoverer,报表,营销管理,PROBE中的数据功能划分,PROBE项目的演进“360 客户视图”项目,EDB消除数据重复和错误集成原有系统客户数据,建立统一的客户视图(基于Oracle TCA模型)PROBE升级为企业数据仓库(EDW)实时数据采集和分析结果发布引入EAI技术,PROBE 新的系统架构,门户(EIS),动态查询Oracle Discoverer,用户访问,Oracle Customers Online,Oracle 11i CRM Suite,EAI,ICMS 计费系统,客户,帐户,地址,PROBE,群体,关系,Staging Area,实时维度数据维护,EAI Staging Area,(star/snowflake schema),原子层,(relational schema),联机数据存储,(OLTP),下游系统访问,9iAS,构建闭环的信息流,数据仓库,计费系统,CTI,市场营销活动管理,呼叫中心,数据挖掘服务器,数据模型的设计方法,从业务需求出发识别各主题分析所需要的数据数据探索分析数据源的数据质量找出来自多个系统的公共表统一维护建立原子层数据模型模型非规范化建立访问层数据模型维度模型,PROBE中的主题域,产品,产品使用,网络事件,网元,地域,帐务,参与方,客户交互,营销,PROBE中的主题分析,客户特征,客户细分,销售机会,营销活动,Analysis and Reporting,客户,产品,营销,收入,网络,产品定购,产品特征,利用率,流量,产品使用,活动响应,支付,使用量变化,新客户获取,客户流失,产品获取,客户收益率,收入,收缴,质量,产品流失,客户交互,典型的应用流程 客户挽留,数据仓库,客户流失预测,计算客户价值,挽留活动设计,活动效果评估,流失客户统计成功挽留分析,自然属性合同属性缴费属性消费行为,当前价值潜在价值,流失因素分析消费行为分析交叉销售分析,Probe的数据抽取策略,多种数据抽取方式并存内部数据源:磁带、FTP、数据库链路外部数据源:email、FTP、CD统一管理数据接口接口标准接口双方的责任实现方式和验证方式由完全批量方式向批量/实时方式结合转变,Probe对数据抽取过程的管理,数据抽取流程的自动化降低系统管理员的负担减少出错的可能性全程监控出错预警审计日志,PROBE对脏数据的处理方法,源系统数据探索抽取过程全程跟踪问题处理个别现象:可以忽略普遍现象:立即组织调查,与业务人员研究解决的必要性和成本,数据去重,客户资料合并家庭集团公司地址清洗地址标准化补充邮政编码成果:减少重复邮件数目降低每封邮件费用,PROBE的元数据管理方案,明确元数据管理范围技术元数据业务元数据元数据发布让业务人员理解元数据维度定义、公式定义以报表形式在网上发布,