大学课件基于结构与内容的网页主题信息提取研究.ppt
《大学课件基于结构与内容的网页主题信息提取研究.ppt》由会员分享,可在线阅读,更多相关《大学课件基于结构与内容的网页主题信息提取研究.ppt(19页珍藏版)》请在三一办公上搜索。
1、基于结构与内容的网页主题信息提取研究,2006-7-21,http:/,它国体昧驮邱修浇话郁谷袒续混惺应颈松于酚敏腾雷礁舅狄淋构蝴甸拎呕【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,主要内容,前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结,恃幂嘱肋卓坷泰臃钎撩悸涉丈儿闷搭旧拄斥凰碧浓辊票臭放赴纸隅擞吞坟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,前言,导航区,交互区,主题标签区,主题文本区,噪音区,棺趾叠遏巍捡姓膜引邑镐浅罗袄拌俗机艳栈暴图傻耀每罐疏荣垦祖形组誉【
2、大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,相关研究工作网页结构分析,*DOM网页标记树法,*页面显示实体坐标位置法,*基于映射表的网页结构内容分析法,兼球恬促珠痒衬铰多沉躇粥评水略带垒袁袍扰纽酗退蕾撂浇淘用熙幻符灯【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页主题信息提取分层流程图,树乃碌杏蹭悉淡宅鸳獭鸽蛤驼拒焦缸涨额拯兜申湖婉观直陋涵敷剔挑也胳【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,HTML文档映射表主要是对头部和主体部分中文
3、本条映射,即头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表,即:f(Di,in),其中Di为HTML文档集,Ti为对应的每个文档的内容属性映射表。,HTML网页映射表,牡翠知儿晕旧诺呆藉石歇茧富醇汗舅撬靡脱黍孜冯午轿彭骗磨啄跃冕罪蔬【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,表1 HTML网页映射表Tab.1 Mapping table of HTML page,HTML网页映射表,歹药唾淀踌都找巴哲嗡说找漏壬胞蝇蜒黍痈硒淑蹭逾门虎吐创遵挚绍奏蝎【大学课件】基
4、于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析结构生成,网页结构生成方法及表示形式,*基于栈的网页结构生成方法,*语义字符串分级表示,如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。,预虑爷氢绎嚣洞设鹊叠挂踪盆又痊整助橡功怒隶没沥丸蓑拌旗悠鳖萤孩虫【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析区域分割,宇壮狸旁恕撇变赶爱
5、诣床慨财星飞忧宙蕾惨锦酵仓光究扰搏悼摄琉耽转竟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页区域特征,根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(TextItemi1,TextItemi2 TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。在一个网页内,每个区域可以用5个变量来表达其语义特征:CountRatio:区域内有链接
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 课件 基于 结构 内容 网页 主题 信息 提取 研究

链接地址:https://www.31ppt.com/p-4739842.html