大数据结构分析模型.pptx
《大数据结构分析模型.pptx》由会员分享,可在线阅读,更多相关《大数据结构分析模型.pptx(33页珍藏版)》请在三一办公上搜索。
1、,大数据分析原理与实践6、结构分析模型,什么是结构分析?,结构分析即发现数据中的结构。其输入是数据,输出是数据中某种有规律的结构。,Dijkstra 算法,问题:求解某个顶点到图中所有其他点的最短路径。如图,求 0 到 1,2,3,4 的最短距离。也称单源最短路径。,Dijkstra 算法,思想:设点集S存放着已找到最短路径的顶点,数组D中保存着 0 到 1,2,3,4 已知的最小距离。初始值 S=0,D=5,13,3,。,思想:每次加入一个点,并进行相应的修改。,Dijkstra 算法,思想:在S中加入点 1,则有于是 S=0,1,=5,11,3,。同理,依次加入其余点,最后的数组d即为 0
2、 到其他点的最短路径。,思想:每次加入一个点,并进行相应的修改。,Dijkstra 算法,思想:算法的时间复杂度为(2),其中n为图中点的个数。同理,也可以考虑将每次加入一条边,即为Bellman-Ford算法,时间复杂度为,其中k为边的个数。若需要输出最小距离对应的路径,则需记录每次下式成立时,j和k的值,思想:每次加入一个点,并进行相应的修改。,Floyd 算法,问题:求解图中所有其他顶点之间的最短路径。如图,求 0,1,2,3,4 这5个顶点间的最短距离。,Floyd 算法,思想:直观上,我们可以使用n次Dijkstra算法,求得每个点到其他点的最小距离,时间复杂度为(3)。而Floyd
3、算法的时间复杂度也为(3),但其过程简单的多,主要表现在输出最小距离对应的路径上。,思想:使用一个矩阵维护路径信息。,PageRank算法,毫无疑问:PageRank算法是链接排名中最重要也最负盛名的算法。,PageRank算法,一点历史:PageRank与GooglePageRank算法,在1996年,由google创始人佩奇和布林发明。这项技术在1998年前后使得搜索的相关性有了质的飞跃,圆满地解决了以往网页搜索结果中排序不好的问题。,PageRank算法,思想:“民主表决”在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。,PageRank算法,
4、思想:“民主表决”正如在现实生活中股东大会里的表决,每个股东的表决权的是取决于它们所持有的股份。而网页的网页排名,在于链接它的网页的网页排名。网页Y的网页排名 PageRank(y)=0.001+0.01+0.02+0.05=0.081,PageRank算法,思想:“民主表决”那么如何事先知道网页X1的重要程度呢?对所有网页假设一个初值,算出第一次迭代排名,然后根据第一次迭代排名,算出第二次迭代排名。经过足够多次的迭代之后,估计值将收敛到真实值。,PageRank算法,具体来说:矩阵相乘假定向量B为N个网页的网页排名。矩阵A为网页之间链接的数目,其中amn代表第m个网页指向第n个网页的链接数。
5、在这里,A是已知的,B是我们所要计算的。,PageRank算法,具体来说:矩阵相乘假定 Bi 是第 i 次的迭代结果,那么=1 初始假设:所有网页的排名都是1/N,即 0=(1,1,1)经过多次迭代,Bi 最终会收敛到B,此时=一般只需10次迭代基本上就收敛了。,PageRank算法,更多:平滑处理及MapReduce平滑处理:网页之间链接的数量相比互联网的规模非常稀疏,使用一个小常数 进行平滑处理=+1 1 MapReduce:早期的PageRank计算的并行化是半手工、半自动的。2003年,谷歌的工程师发明了MapReduce,使得PageRank的计算完全自动化了。,什么是结构计数结构计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据结构 分析 模型
链接地址:https://www.31ppt.com/p-4588634.html