实用教程(Teradata).ppt
《实用教程(Teradata).ppt》由会员分享,可在线阅读,更多相关《实用教程(Teradata).ppt(81页珍藏版)》请在三一办公上搜索。
1、实用教程(Teradata),陆世潮2008年9月,问题总结,常见问题分类:表属性不对:Set/Multiset问题:INSERT操作慢主索引(PI)设置不合理问题1:数据倾斜度大,空间爆满。问题2:JOIN操作,数据需要重分布。分区索引(PPI)设置不合理问题:全表扫描连接条件过于复杂问题:系统无法优化执行计划缺乏统计信息问题:系统无法找到最优化的执行计划,SQL跑得慢哈!,提纲,Teradata架构常见问题,及解决方法Teradata工具实用小技巧JOIN的实现机制JOIN的优化,Teradata 体系架构,Teradata and MPP Systems,RDBMS ARCH,Logic
2、al Example of NPPI versus PPI,提纲,Teradata架构常见问题,及解决方法Teradata工具实用小技巧JOIN的实现机制JOIN的优化,表属性:Set&MultiSet,Set Table不允许记录重复MultiSet Table允许记录重复默认值:Set TableCreate Table.AS.生成的目标表属性默认为Set Table对SET Table进行INSERT操作,需要检查是否存在重复记录相当的耗资源若真要限定唯一性,可以通过UPI或USI实现,CREATE SET TABLE pmart.RPT_NM_GRP_PRE_WARN_MON,(CAL
3、_Month INTEGER TITLE 统计月份,ORG_NUM CHAR(12)TITLE 集团编号,City_ID CHAR(3)TITLE 地市标识,ORG_SUBS_GRP_NUM CHAR(10)TITLE 集团用户群编号,ORG_Title VARCHAR(200)TITLE 集团名称,ORG_Level CHAR(2)TITLE 集团级别,STAT_Item_Code CHAR(2)TITLE 统计项,STAT_Value DECIMAL(18,2)TITLE 统计值)PRIMARY INDEX(ORG_NUM);,例子:pmart.RPT_NM_GRP_PRE_WARN_MO
4、N 内蒙移动集团客户预警指标月报表,假设原有1286449条记录插入:152853条记录耗时:15秒,表属性:Set&MultiSet(cont.),CREATE MULTISET TABLE pmart.RPT_NM_GRP_PRE_WARN_MON(CAL_Month INTEGER TITLE 统计月份,ORG_NUM CHAR(12)TITLE 集团编号,City_ID CHAR(3)TITLE 地市标识,ORG_SUBS_GRP_NUM CHAR(10)TITLE 集团用户群编号,ORG_Title VARCHAR(200)TITLE 集团名称,ORG_Level CHAR(2)TI
5、TLE 集团级别,STAT_Item_Code CHAR(2)TITLE 统计项,STAT_Value DECIMAL(18,2)TITLE 统计值)PRIMARY INDEX(ORG_NUM);,例子:pmart.RPT_NM_GRP_PRE_WARN_MON 内蒙移动集团客户预警指标月报表,建议:Teradata中都用 MultiSet,假设原有1286449条记录插入:152853条记录耗时:1秒,例子:CREATE MULTISET TABLE tttemp.VT_SUBS_VIOC_QUAN as(SELECT*FROM tttemp.MID_SUBS_VIOC_QUAN WHERE
6、 CAL_MONTH=200802 AND*)WITH DATA PRIMARY INDEX(subs_id);,临时表,默认为:Set需要指定为:Multiset,字段越多,记录越多差别越明显,PI(Primary Index 主索引)的选择,PI影响数据的存储与访问,其选择标准:不同值尽量多的字段(More Unique Values)使用频繁的字段:包括值访问和连接访问少更新PI字段不宜太多最好是手动指定PI,例子:用户语音业务量中间表CREATE MULTISET TABLE tttemp.MID_SUBS_VIOC_QUAN(CAL_Month INTEGER TITLE 统计月份,
7、City_ID CHAR(4)TITLE 地市标识,Channel_ID CHAR(8)TITLE 渠道标识,Subs_id CHAR(12)TITLE 用户标识,。)PRIMARY INDEX(subs_id);,例子:用户语音业务量临时表CREATE MULTISET TABLE tttemp.VT_SUBS_VIOC_QUAN as(SELECT*FROM tttemp.MID_SUBS_VIOC_QUAN WHERE CAL_MONTH=200802 AND*)WITH DATA PRIMARY INDEX(subs_id);,Subs_ID:频繁使用 Unique Value多,如果
8、不指定PI,系统默认为:Cal_Month,PI(Primary Index 主索引)的选择(cont.),例子:梦网客户活跃客户分析CREATE MULTISET TABLE PMART.FCT_DATA_MONNET_ACTIVE_MON(CAL_Month INTEGER TITLE 统计月份,City_ID CHAR(4)TITLE 地市标识,Channel_ID CHAR(8)TITLE 渠道标识,Mont_SVC_Type_Cod CHAR(3)TITLE 梦网业务类型编码,Mont_SVC_CAT_MicroCls_Cod CHAR(3)TITLE 梦网业务分类小类编码,Mont
9、_SVC_CHRG_Type_Cod CHAR(2)TITLE 梦网业务计费类型编码,THR_Brand_Cod CHAR(1)TITLE 三大品牌编码,Mont_Consume_Level_Cod CHAR(2)TITLE 梦网消费层次编码,Consume_Level_Cod CHAR(2)TITLE 消费层次编码,。)PRIMARY INDEX(CAL_Month,City_ID,Channel_ID,Mont_SVC_Type_Cod,Mont_SVC_CAT_MicroCls_Cod,Mont_SVC_CHRG_Type_Cod,THR_Brand_Cod,Mont_Consume_L
10、evel_Cod,Consume_Level_Cod);PI:9字段 2字段:City_ID,Channel_ID 调整PI后,在右边的SQL中,PI是否起作用?,以下SQL,PI是否起作用?:1.值访问Select*From FCT_DATA_MONNET_ACTIVE_MONWhere City_ID=070010 and Channel_ID=0100 and cal_month=2007072.连接访问Select*From FCT_DATA_MONNET_ACTIVE_MON ALEFT JOIN MID_CHANNEL_INFO_DAILY B ON A.Channel_ID=B.
11、Channel_ID and A.City_ID=b.City_ID LEFT JOIN VW_CDE_REGION_TYPE C ON A.City_ID=C.City_ID 3、值访问连接访问Select*From FCT_DATA_MONNET_ACTIVE_MON A,VT_INFO BWHERE A.Channel_ID=B.Channel_ID AND A.City_ID=B.City_ID AND A.CAL_MONTH=200707 AND A.Consume_Level_Cod=B.Consume_Level_Cod,PPI的使用,PPI(Partition Primary
12、Index,分区索引),把具有相同分区值的数据聚簇存放在一起;类似于SQL Server的聚簇索引(Cluster Index),Oracle的聚簇表(Cluster Table)。利用PPI,可以快速插入/访问同一个Partition(分区)的数据。,CREATE MULTISET TABLE qdata.TB_DQC_KPI_CHECK_RESULT(TX_DATE DATE FORMAT YYYYMMDD TITLE 数据日期 NOT NULL,KPI_CODE INTEGER TITLE 指标代码 NOT NULL,。)PRIMARY INDEX(KPI_CODE)PARTITION
13、BY RANGE_N(TX_DATE BETWEEN CAST(20030101)AS DATE FORMAT YYYYMMDD)AND CAST(20191231)AS DATE FORMAT YYYYMMDD)EACH INTERVAL 1 DAY,NO RANGE OR UNKNOWN);,Select*From TB_DQC_KPI_CHECK_RESULTWhere tx_date=20070701;或Where tx_date between 20070701 and 20070731;或Where tx_date 20070701;但Where tx_date like 2007
14、07%;不起作用,PPI的使用(cont.),Partition上不要使用表达式,否则Partition不能被正确使用。T1.tx_date/100=CAST(20070917AS DATE FORMAT YYYYMMDD)/100Substring(T1.tx_date from 1 for 6)=200709应该修改为 T1.tx_date=CAST(20070901 AS DATE FORMAT YYYYMMDD),PPI的使用(cont.),脚本:tb_030040270.pl/*删除当月*/2小时 del BASS1.tb_03004 where proc_dt=200709;ins
15、ert into BASS1.tb_03004 7小时。,sel.from pview.vw_evt_cust_so cust where acpt_date=cast(200710|01 as date)cast(200710|01 as date)写法错误,PPI不起作用日期的正确写法:Cast(20071001 as date format YYYYMMDD),在proc_dt建立PPI,PPI字段从Load_Date调整为acpt_date,创建可变临时表,它仅存活于同一个Session之内注意指定可变临时表为multiset(通常也要指定PI)可变临时表不能带有PPI例子1:crea
16、te volatile multiset table vt_RETAIN_ANLY_MON as(select col1,col2,from where group by.)with data PRIMARY INDEX(PI_Cols)ON COMMIT PRESERVE ROWS;例子2:create volatile multiset table vt_RETAIN_ANLY_MON(col1 char(2),col2 varchar(12)NOT NULL)PRIMARY INDEX(PI_Cols)ON COMMIT PRESERVE ROWS;,创建可变临时表(cont.),例子3
17、:create volatile multiset table vt_RETAIN_ANLY_MON as(select col1,cast(adc as varchar(12)col2 from where)with no data PRIMARY INDEX(col1)ON COMMIT PRESERVE ROWS;例子4:create volatile multiset table vt_net_gsm_nl as pdata.tb_net_gsm_nl with no data ON COMMIT PRESERVE ROWS;,字段col2将用unicode字符集;当跟普通字段(lat
18、in字符集)join时,需要进行数据重新分布。不建议,失败:因为pdata.tb_net_gsm_nl 有PPI而可变临时表不允许有PPI,固化临时表,固化临时表,就是把查询结果存放到一张物理表。共下次分析或他人使用Session断开之后,仍然可以使用。示例1:CREATE MULTISET TABLE tttemp.TMP_BOSS_VOIC as(select*from pview.vw_net_gsm_nl)WITH no DATA PRIMARY INDEX(subs_id);INSERT INTO tttemp.TMP_BOSS_VOICSELECT*FROM pview.vw_ne
19、t_gsm_nl WHERE*;示例2:CREATE MULTISET TABLE tttemp.TMP_BOSS_VOIC as(select*from pview.vw_net_gsm_nl WHERE*)WITH DATA PRIMARY INDEX(subs_id);示例3:(复制表,数据备份)CREATE MULTISET TABLE tttemp.TMP_BOSS_VOIC AS pdata.tb_net_gsm_nl WITH DATA;,数据类型,注意非日期字段与日期字段char&date的转换与关联:如果数据类型一致可以直接使用;在CASE WHEN or COALESCE一
20、定要使用显式的类型转换(CAST)CASE WHEN A=B THEN DATE1 ELSE 20061031 END应写成CASE WHEN A=B THEN DATE1 ELSE CAST(20061031 AS DATE)END数值运算时,确保运算过程中不丢失计算精度。CAST(100/3 AS DEC(5,2)应该写成CAST(100/3.00 AS DEC(5,2),字符(串)与数字相比较,比较规则:1)比较两个值(字段),它们的类型必须一样!2)当字符(串)与数字相比较时,先把字符(串)转换成数字,再进行比较。3)经分系统中容易出错的,有Cal_Month字段,Case 1,Tab
21、le 1CREATE TABLE Emp1(Emp_noCHAR(6),Emp_nameCHAR(20)PRIMARY INDEX(Emp_no);,Statement 1SELECT*FROMEmp1WHEREEmp_no=1234;,Statement 2SELECT*FROMEmp1WHEREEmp_no=1234;,Table 1CREATE TABLE Emp2(Emp_noINTEGER,Emp_nameCHAR(20)PRIMARY INDEX(Emp_no);,Statement 1SELECT*FROMEmp2WHEREEmp_no=1234;,Statement 2SELE
22、CT*FROMEmp2WHEREEmp_no=1234;,Case 2,Results in Full Table Scan,Results in unnecessary conversion,目标列的选择,减少目标列,可以少消耗SPOOL空间,从而提高SQL的效率当系统任务繁忙,系统内存少的时候,效果尤为明显。举例:GSM语言话单表,PDATA.TB_NET_GSM_NL共有73字段,以下SQL供返回1.6亿条记录左边的SQL,记录最长为:698字节,平均399字节右边的SQL,记录最长为:59字节,平均30字节两者相差400多GB的SPOOL空间,IO次数也随着相差甚大!,SPOOL空间估
23、计:497 GB,SPOOL空间估计:42 GB,SELECT SUBS_ID,MSISDN,Begin_Date,Begin_Time,Call_DUR,CHRG_DURFROM PDATA.TB_NET_GSM_NLWHERE PROC_DATE BETWEEN 20070701 AND 20070731,SELECT*FROM PDATA.TB_NET_GSM_NLWHERE PROC_DATE BETWEEN 20070701 AND 20070731,Where条件的限定,根据Where条件先进行过滤数据集,再进行连接(JOIN)等操作这样,可以减少参与连接操作的数据集大小,从而提高
24、效率好的查询引擎,可以自动优化;但有些复杂SQL,查询引擎优化得并不好。注意:系统的SQL优化,只是避免最差的,选择相对优的,未必能够得到最好的优化结果。,SELECT A.TX_DATE,A.KPI_CODE,B.SRC_NAME,A.KPI_VALUEFROM(select*from qdata.tb_dqc_kpi_check_result where TX_DATE=20070701 AND KPI_CODE=65)ALEFT JOIN(SELECT*FROM qdata.tb_dqc_kpi_def where KPI_CODE=65 and N_TYPE=M)BON A.KPI_C
25、ODE=B.KPI_CODE,SELECT A.TX_DATE,A.KPI_CODE,coalesce(B.SRC_NAME,no name),A.KPI_VALUEFROM qdata.tb_dqc_kpi_check_result ALEFT JOIN qdata.tb_dqc_kpi_def BON A.KPI_CODE=B.KPI_CODE WHERE A.TX_DATE=20070701 AND A.KPI_CODE=65 AND B.N_TYPE=M,rewrite,用Case When替代UNION,sel city_id,channel_id,cust_brand_id,sum
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实用教程 Teradata
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5344184.html