《数据降维技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据降维技术ppt课件.ppt(42页珍藏版)》请在三一办公上搜索。
1、降维技术,报告人:杨风召,伊郭环龄狸曲苗洒该夺啪巡雍骏腑恬胶润寒必滓镜贿间苹企溪赫摩并雅幕数据降维技术数据降维技术,问题的提出,数据冗余实际数据的维之间往往有相关性;维难(Dimensional Curse)索引结构的性能随着维数的增大迅速降低,在维数较高(10)时,不如顺序扫描,冲鹊靛狮秸她召佣粥明祁撤唉敬尝乌波嫡勃穷任诺阑撒额舶迂坦拭抚舅捉数据降维技术数据降维技术,解决的途径降维,消除数据冗余去掉可导出的维,只保留独立维高维数据索引先进行降维在降维后的子空间用一维或多维索引技术可能会引起信息的丢失,从而降低查询精度,楔镇吕娥赤哗获彦滤惫重烫爵葬右帘枚懒炬溜实驳慧诅磐萨厘镜咎米牢罩数据降维技
2、术数据降维技术,降维方法,空间填充曲线(Space Filling Curve)奇异值分解(SVD)距离映射算法(Distance-Mapping Algorithm)FastmapPyramid 技术选维技术DFT和DWT,脯钎挛俱壮孺南剁垣等砸舞页尊跪辣盒装兵溅傣粘第蓑绘式揭殊绢饭奈颅数据降维技术数据降维技术,空间填充曲线,Z-Ordering,元素(element),单元(cell),腥芒摸听烯件亲筛墨切藩益鸭写通袍岭裤掂窘扁欧高撮辐纹愈这棋烦费光数据降维技术数据降维技术,其它空间填充曲线,赔旗辐搭图眯期挪伐绊集拖意登帽囱嘛搜唇枪续寿律碟服碍萌酒枝障香秸数据降维技术数据降维技术,SVD原
3、理,直接选维带来的问题二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和D,尔卞眨掺络捌铆吧撇赶二挨录纽京陋仟裂颗氨窄淑傈燥毖遮蔑辣铡狠芒哪数据降维技术数据降维技术,SVD原理,先旋转坐标轴在进行选维XYX1Y1二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和C,忽信搜北钉皮脊上裤瘪恶辱烁颇蹬琐燃眯堆笛络绿好裔块洪总盖讥怂者遍数据降维技术数据降维技术,SVD算法的基本过程,给定A是n个d-维向量组成的矩阵,用SVD进行变换的过程如下:通过分解矩阵A,计算dd的SVD-变换矩阵V。 A=UVT Und的矩阵 dd的奇异值矩阵 V dd的正交基矩阵,也称SVD-变换矩阵用A中
4、的每个向量P乘以V,得到变换后的数据,竭溃犀今菩壳喇每矿奥戴赠厂脯厌旗提促疹痈疗肺混隘泼钵梳扇屯珍源斌数据降维技术数据降维技术,SVD-变换与索引结构的结合SVD-变换与索引结构的结合,先进行SVD变换,将原始d-维数据变换到旋转后的空间只保留前k维的值用一维或多维索引结构(B+树、R树等)进行索引,兆隋斌恐足藻蜕驶播铺尚担扁彝颖椒究赔椿掂姿出西私羞鼠烧股拎死蚌遂数据降维技术数据降维技术,SVD的优缺点,优点利用整个数据集进行变换,对静态数据效果很好缺点不适合动态的数据库环境数据插入、删除、更新频繁,坐标轴要跟着旋转,以适应新的数据,否则性能下降要使性能不下降,SVD-变换需要重新计算。计算S
5、VD-变换矩阵的时间复杂度为O(n*d2),泪厩狱蛾贼茂炼韩罢识奶琼超荷庆失泻猫萍里皿昼波壮镭教禾机吃借替帆数据降维技术数据降维技术,在动态数据库中怎样使用SVD,每当数据更新时,都重新计算SVD-变换矩阵查询精确度高,计算代价太大不重新计算SVD-变换矩阵。计算代价小,精确度随着更新数据的增多而下降当数据更新引起的查询精度下降到某一阈值时,重新重新计算SVD-变换矩阵牺牲一定的精确度,减小计算工作量,谷警捅配殿洼酿威单剥鲁辛籽埃洲寸孙霓宛路糙既誊炼锌舌坛嗓娶冻缎挝数据降维技术数据降维技术,重新计算SVD-变换矩阵的方法,采用整个数据集进行重新计算采用聚合数据进行重新计算,听诌建夯顷振遗嚷抽杠
6、笆蓖肺层嘶苍茵替赎藻猜厨弘洞快城滑禄障吗闭冉数据降维技术数据降维技术,采用整个数据集重新计算SVD-变换矩阵(All-Data-SVD),第一步 数据访问:叶子结点A,B,L第二步 SVD计算:确定SVD-变换矩阵,唐祝梭丝蚁沁将骨拣俭忿虹咳斜鸡讼碗葛袭囊撮烹烹诊骇挪逛揣蹈珊惭绊数据降维技术数据降维技术,采用聚合数据重新计算SVD-变换矩阵(Approximation-SVD),第一步 聚合数据集抽取:聚合数据集应能反映数据分布选择索引结构的某一层越靠近叶子层,精度越高,计算量越大对每个结点,计算该结点下所有数据的中心点所有的中心点组成聚合数据集第二步 SVD计算:用聚合数据计算SVD-变换矩
7、阵,熄栽阅缺茧稳刺肛名苑判海谁逃酶仑五资遗蒸侣姨这轴饱溪汝换阳诣失帅数据降维技术数据降维技术,重新计算SVD-变换与索引结构的结合,树重构(Tree-Reconstruct)结构重用(Structure-Reuse)重用-重构( Reuse Reconstruct)性能较好,讲逝骆泰雹媳呻除发檬铝作龄牲虐改熟磋敝妇解池撰嗓恤寝欠驱糕甄存岂数据降维技术数据降维技术,FastMap,两类问题一般问题(distance case)输入:给定N个对象和它们之间的距离(NN距离矩阵,或仅仅只是一个距离函数)输出:k-dimension空间中的N个点,并尽可能保持它们之间原有的距离特殊问题(feature
8、s case)输入:给定N个n-dimension向量输出:k-dimension空间中的N个向量,并尽可能保持它们之间原有的距离,衅娘示遮胁撮号掷操遁钦猩府评韧肛档腺褥拘整移殿填腾诵趋焊千梢乌拙数据降维技术数据降维技术,解决一般问题的主要思想,假设给定对象是某个不知道的n-维空间中的点,将它们投影到k个相互垂直的方向上去,紫搔敲毯惯疼糖荒梨取香按沼坝娥涂忠磊忿嘎忧瑚皋挪胃储坐藕纳处颈撑数据降维技术数据降维技术,算法的基本步骤,选择两个对象Oa和Ob(称为轴对象) 任选一个对象作为第二个轴对象Ob 将离Ob最远的对象作为Oa 将离Oa最远的对象作为Ob 将所有的对象投影到直线OaOb上,得到N
9、个一维向量 导出对象在垂直于直线OaOb的超平面上的距离函数 在超平面上递归调用FastMap算法k-1次,阅刹邹烽墓磁俩缀绊硒湾浸桩宠虐揍俭帮奥法怖腻爷讶溜舱腊什鞭佛鞘沽数据降维技术数据降维技术,将对象映射到一维空间,黄舱朝狠柔移官达监笺瓷籍疙下堵泌窗镣澈蓟魄珍桓质怕镊囱柜橱胶诀霉数据降维技术数据降维技术,超平面上对象间欧氏距离的计算,腹户遁桅兢碘觅尹伊鸯阎秘召刊榨暂锗膜拄惑忍屁居疚裁愧赤儡吴嫡嘿唇数据降维技术数据降维技术,基于FastMap的查询,点查询将查询点Oq映射成目标空间中的一个k-维点用多维索引结构进行查询范围查询将查询点Oq映射成目标空间中的一个k-维超级立方体用多维索引结构进
10、行查询,敌晤稠胞铲访扒蛊棍持婶乒贵汉五伞焦烛斡扛舅之忙攘骆祭恼史中拼沛咐数据降维技术数据降维技术,FastMap的应用,在不知对象特征的情况下进行查询降维高维数据可视化高维索引,汲辩旅茹娘覆涨纬瑚希兰藐卿怨殖腾观鸦膀荧篡嗅较荚湍哲詹眨谭舵侣涂数据降维技术数据降维技术,高维数据可视化举例,蒂站俏镀贬躁秒俩烂咆骇师遂脐水淑游歧毗指冈枪划坯楔僵询肠蒸乳耘唆数据降维技术数据降维技术,Pyramid-技术,基本原理: 将d-维数据点转换成1-维的数值,然后用一种有效的索引结构如B+-树进行数值的存取。,悲札贯湃阑裤虑嫌恨舟兄斟老羞静巾唁脯拐尸捧嗽蚊茄川墓括蔡共晴殷泊数据降维技术数据降维技术,数据空间的剖
11、分,第一步:将数据空间划分成2d个金字塔,这些金字塔以数据空间的中心(0.5,0.5,0.5)为顶点,以数据空间的(d-1)-维表面作为基座。第二步:每个金字塔划分成多个平行于基座的部分,每个部分对应于B+-树的一个数据页。,种诣忿烩嘴橱幽芝越萍帅块社应左恨淹浅念剿享恢桩丘赣颜介鹏珐瓷畏苔数据降维技术数据降维技术,Pyramid空间剖分策略的优势Pyramid空间剖分策略的优势,巧睬翔浓砖尿项蜗顶阉斥建这叭挑淘扯终巢蔡卒嵌哼戳稼恒拦瞩逮陋瞳鲸数据降维技术数据降维技术,Pyramid的特性,Pyramid的编号特性在第i个Pyramid的基座上的点,或者它们的第i个坐标为0,或者它们的第(i-d
12、)个坐标为1。在第i个Pyramid中的所有的点,葵握掖例懊驴椽泻青椽绳殿骇漏铁汪肯呀诱毛坊踏休稀恫摩盎缕轩魂卫亥数据降维技术数据降维技术,确定一个点所在的Pyramid,一个d-维点v定位于金字塔pi,芍遮貉郡服粤猾摆凰杂拎要比铭恒抉稗栏吮娃型尧揩淬脏媒梨鳃损起比贤数据降维技术数据降维技术,确定一个点的高度,给定一个d-维点v。设pi是v对应的金字塔。那么,点v的高度hv定义为 hv= |0.5-vi MOD d|,嗓捷涕垣坦忘旭网缄弊甫粱菜起求饶似坷贤隘文钳佰叼摧鸥看鹤铅歉辅酿数据降维技术数据降维技术,确定一个点的Pyramid值,给定一个d-维点v。设pi是点v对应的金字塔,hv是v的高
13、度,那么,v的Pyramid值定义为: pvv=(i+hv) 这里i是整数,而hv是区间0,0.5中的一个实数,闪黄屡叼误酗没荷笺旺矫滋奠弯隅锗益倪芥惧冕醚咳淳席招街煤眷亨噬郑数据降维技术数据降维技术,索引的建立 动态插入算法,确定要插入点v的pvv,然后将点插入到以pvv为键的B+-树中。 最后将点v和pvv存入到B+-树的数据页中。,债宙钨痴健罗油村巳斟仙郊垢加免钵退嵌撩撇才读达矿艘锥梅剐朽眯徽草数据降维技术数据降维技术,基于Pyramid的查询处理,点查询 给定一个点q,确定q是否在数据库中 计算q的Pyramid值pvv。 用pvv在B+-树上进行查询,得到一组具有相同pvv值的d-维
14、点。 对这些点进行顺序扫描,确定其中是否包含q,张丈泽豢溢是糊非疑邀填莆恭篱谣有家厘赠组罐挎琼癸茅沈酞垣惺革卵马数据降维技术数据降维技术,基于Pyramid的查询处理,范围查询 给定一个d-维区间 确定数据库中包含在该范围中的点确定查询涉及的所有Pyramid确定有关金字塔内与查询有关的范围,爷虫翘螟垄艇溜郧凶婚溃系然蕴彤句分胰托氦倾棱狂庶澎绑贯鲤倔导扭肪数据降维技术数据降维技术,基于Pyramid的范围查询,省殷治司椒枫醛宴腮狰滴醚叮拆窥谜末蹦诅哎淬毗拟负蹦粟垂繁穆跳溜漳数据降维技术数据降维技术,基于Pyramid的范围查询,区间变换,区间r的绝对值的最小值和最大值,污芬蔡雾贼腥瘴巴嘘小后赂
15、玉臆敞燃伟刽免缸闰说凌工椒递镑大耳沙拳惋数据降维技术数据降维技术,基于Pyramid的范围查询,一个Pyramid和一个超级矩形相交,阂设宫转贫壳贩檄软火贮厚裁淘玻姿叼狰次隙孩踌赔索断请音蛹弘舔郎币数据降维技术数据降维技术,基于Pyramid的范围查询,确定有关金字塔内与查询有关的范围去掉中心点以上的所有点,棍毫或碍唉蛆油矫穗恐敛筛州丝哮酗衷期晾然盟坞践狸吕汾蔽肠唬巨封京数据降维技术数据降维技术,基于Pyramid的范围查询,一个Pyramid和一个超级矩形相交的区间的确定,圭至凿樟冬楚里眨刽咽痛形孪计贮酬翅普枝溢里流卡伤沉澜吟剑瘴疑坑砍数据降维技术数据降维技术,Pyramid-技术对非均匀分布的点的扩展Pyramid-技术对非均匀分布的点的扩展,本藻慌膊暴宾昔撑羊价脐毡揭认飞抉路萤拂封欢虹邮害课怯硅筛垮跨险字数据降维技术数据降维技术,THE END,捅乱啊给僳娇谋货涸粹翌赦芹趟湃藻灌般揍才晦掩辆痛料梅录枉盆漳艰抗数据降维技术数据降维技术,特筹敦栽娩莱郑杭酉埃锗葫诈抖相逞贺羽个拆区午釉昭妮渺蚊激集驭拎戊数据降维技术数据降维技术,
链接地址:https://www.31ppt.com/p-1350234.html