数据仓库(Teradata).ppt
Teradata数据仓库,Dr.Zhang JianSenior Technical ConsultantTD China,Apr.,2009,公司介绍,NCR公司介绍,创建于1884年,120年历史包括三大部门数据仓库事业部/Teradata金融服务/ATM零售服务/POS年收入$60+亿全球员工33,000人美国财富500强厂商,纽约证券交易所上市公司,Teradata 公司介绍,Teradata 公司 2007年10月1日正式从NCR分拆全球企业级数据仓库的领导企业企业级数据仓库领导企业数据分析解决方案咨询服务1999年来一直被Gartner定位在数据仓库领导者象限数据仓库行业的领导企业全球40多个国家设有分支机构客户覆盖全球各个行业的领导企业2006年营业收入16亿高性能处理技术并行环境速度和可扩展能力,Teradata A Brief History,1979Teradata Corp founded in Los Angeles,California Development begins on a massively parallel computer1982 YNET technology is patented1984 Teradata markets the first database computer DBC/1012 First system purchased by Wells Fargo Bank of California1987 First public offering of stock1989 Teradata and NCR partner on next generation of DBC.1991 NCR Corporation is acquired by AT 2500/5550 systems are introduced.,FORTUNE Global Rankings,July 2007,Teradata在全球各个行业的成功案例,领先行业银行及财务公司政府保险行业制造业零售业电信行业运输行业旅行业世界级的客户名单接近900个客户超过2000个系统安装,业界的领导企业(Gartner Magic Quadrant for Data Warehouse Database Management Systems),经典数据仓库体系架构,什么是数据仓库,“A Data Warehouse is a subject-oriented,integrated,time-variant,nonvolatile collection of data in support of managements decision making process”-W.H.Inmon,1992,Building The Data Warehouse四点特征面向主题集成的(一致性)时变性不易失性(稳定性),What is a Data Warehouse?,谁是我们最有价值的客户按在网时间、消费金额、收入、年龄、地域、业务规模.按产品使用情况(国内、国际、接线员服务、呼叫卡、全部)在我们最好的客户中,谁最有可能流失?我们的基站有问题吗?我们可以将流失模式与用户的家庭关系或一个呼叫频繁的基站对应起来吗?按欺诈类型划分的欺诈模式?我们的网络使用峰值占总使用的百分比?我们应该向谁推销新产品或服务?那些客户我们应该让给我们的竞争对手?针对一个选定的用户群体,最赢利的产品/服务组合是什么?吸引某一类用户的最恰当的消息、媒体、和渠道是什么?,使你能够轻松回答下列业务问题,Teradata电信业cLDM的商业价值,数据仓库的发展趋势及技术要求,Teradata典型数据仓库系统框架,企业 数据仓库,从属数据集市,业务人员,IT 用户,数据导入,析取,清洗,条件,剔除,家庭关系,加载,知识发现 数据挖掘,信息存取 工具,源数据,数据采集,数据存储/管理,信息访问,IT Users,Business Users,业务系统,业务系统,业务数据,外部数据,关系数据库管理系统,聚集,统计,人工智能,神经网络,多维,可视化,EIS/DSS,电子表,对象语言,开发,网络管理数据库管理 系统管理,元数据 逻辑数据模型 物理数据库设计 数据字典,业务和技术咨询与培训服务,数据仓库系统的体系结构,地市公司,省公司,数据清洗转换加载文本文件,营业97,结算,计费帐务,其他,数据源,面向业务流程3NF,物理数据集市,最终用户,LDM逻辑数据模型详细交易数据面向主题3NF,PDM,面向分析主题汇总数据模型Star Schema 建模虚拟数据集市,数据仓库平台,数据转换压缩/传输文本文件标准数据接口,数据仓库系统中的数据流,Teradata电信业cLDM,cLDM 核心主题,Party参与人在业务关系层面,跟踪所有人、商业单位、团体及其关联者,详细的关于评分、分段、奖励、渠道、Web Site、隐私信息、特征信息等 Offer服务在消费层面,跟踪所有产品、服务,将分解神秘的产品结构分解到最低层面,如合同、产品结构、产品关联物、促销、购买交易、用户定购等 Network网络跟踪如何、什么时间,客户使用了一项产品或服务,并提供关于提供这些服务的物理设备的信息 Location地址跟踪客户与通信资产的物理、地理关系,包括两个层面:地址、特征 Finance财务跟踪关于发票账户、付费账户、计费、收入、付费、成本等方面的财务信息Advertisement广告允许用户跟踪营销活动成果,支持制定营销获得战略,客户联系列表、市场调查等Event事件跟踪与客户交互的重要活动,包括影响客户与运营商关系的内部、外部事件,中央数据库,OLAP服务器,WEB服务器,数据挖掘服务器,前端展现工具胖客户端,浏览器用户瘦客户端,数据挖掘客户端,应用服务器,ETL服务器,管理工作站,核心业务系统OS 390/DB2,其他业务系统NT/Oracle,Win2K/UNIXTeraBuilderETL Auto Services,Fload Mload FexportTPumpAccess Module,TD ManagerDBQMMDSETL Auto AdminETL Auto Monitor,MPP ServerTeradata V2R5,Win2KSAS Enterprise Miner,SAS EMClient,MS AS/Cognos,W2KQueryManBrio Designer,W2KIISBrio PortalOne,W2K/UNIXBrio ODSBrio BDS,W2KBrowser,典型的数据仓库体系架构,Teradata数据仓库技术框架,20,对数据仓库平台的基本要求,假设一个客户平均每天8个电话(双向)每个CDR 230个字节,如果保存6个月CDR进行分析,则每100万客户的原始数据为:1,000,000X8X230X6X30=331(GB)数据仓库磁盘容量(RAID 1)为约1.2TB!,中国移动的实例:,21,强大的并行处理能力 数据仓库是分析性的应用 动态随机查询,无法预定索引 复杂查询(多表连接,合计,大表搜索)并发用户,对数据仓库平台的基本要求,Teradata MPP 体系架构,Teradata BYNET 互联完全线性扩展的带宽节点可线性扩展到1024个节点Windows/Unix/Linux存储独立I/O按节点进行扩展连接完全线性扩展通道连接 ESCON/FICONLAN,WAN服务器管理一个控制台来管理和监控整个系统,SMP 节点1,SMP 节点2,SMP 节点3,SMP 节点4,CPU1,CPU2,CPU1,CPU2,CPU1,CPU2,CPU1,CPU2,双路Teradata BYNET互联,内存,内存,内存,内存,CPU(s),CPU(s),CPU(s),CPU(s),CPU(s),CPU(s),CPU(s),CPU(s),缓存,缓存,缓存,缓存,缓存,缓存,缓存,缓存,内存,内存,内存,内存,内存,内存,内存,内存,磁盘存储,磁盘存储,磁盘存储,磁盘存储,磁盘存储,磁盘存储,磁盘存储,磁盘存储,BYNET,Teradata采用Shared-Nothing的MPP架构为线性扩展而设计的体系架构为大数量、高速的磁盘访问进行优化出色的大数量操作的访问能力,体系架构决定可扩展性,各个节点之间的互联采用数据库消息,而不是共享I/O或者内存,Teradata并行的基础,每个并行单元只管理自己的数据,体系架构决定可扩展性,BYNET,CPUs 经常需要通过互联访问远程的内存,CPU通过互联总线访问共享的磁盘,Teradata Shared-Nothing的MPP架构为线性扩展而设计的体系架构为大数量、高速的磁盘访问进行优化出色的大数量操作的访问能力,BYNET高速互连节点网络,点对点信息传输,信息广播,可扩展到512个节点硬件实现信息传输提供点到点和广播传输方式,Node,Node,Node,Node,BYNET,Node,所有任务都并行执行,Session ASession B,Session CSession D,Session ESession F,PE,PE,PE,Task 1Task 2Task 3.80,AMP 1,AMP 4,AMP 3,AMP 2,BYNET,Task 1Task 2Task 3.80,Task 1Task 2Task 3.80,Task 1Task 2Task 3.80,每个PE可以处理120个并发连接.每个连接可以处理同多个查询请求.BYNET可以并行处理多种信息.每个AMP可以并行处理80个任务.所有AMP可以并行处理任何数据库操作.,AMP(Access Module Processor):存取模块处理器PE(Parsing Engine):分解引擎,Teradata的并行机制,Shared Nothing 完全并行与线性扩展能力的基础,Teradata完全并行与线性扩展能力的基础保证每个AMP拥有/管理相同的硬盘分区只有该AMP可以读取对应的硬盘分区对任何操作没有集中的单一控制点I/O,Buffers,Locking,Logging,Dictionary无集中控制,Teradata 数据库机制,Teradata 数据存储机制,Teradata 数据存储机制,Primary Index 主索引数据访问,数据分布(UPI),多张表在多个AMP上的分布,线性增长和可扩展性,次索引(USI)数据访问,非唯一次索引(NUSI)数据访问,每种访问技术的比较,无索引技术的数据访问,全表扫描并行的读取每个AMP上的数据全表扫描出现在下列情况下:,SELECT*FROM Customer WHERE Cust_Phone LIKE 524-_ _ _ _;SELECT*FROM Customer WHERE Cust_Name=Davis;SELECT*FROM Customer WHERE Cust_ID 1000;,分区索引Partitioned Primary Indexes(PPI),V2R5的新的索引机制在各个AMP上将数据组织为多个分区作为Teradata的第三级数据组织和分布技术对于分区字段上的查询,会大大的提高查询的效率避免了全表扫描,CREATE SET TABLE Employee(Order_Number INTEGER,O_Date Date)PRIMARY INDEX(Order_Number)PARTITION BY O_Date;,PPI的例子,谢 谢!,