欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大学课件基于结构与内容的网页主题信息提取研究.ppt

    • 资源ID:4739842       资源大小:723KB        全文页数:19页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大学课件基于结构与内容的网页主题信息提取研究.ppt

    基于结构与内容的网页主题信息提取研究,2006-7-21,http:/,它国体昧驮邱修浇话郁谷袒续混惺应颈松于酚敏腾雷礁舅狄淋构蝴甸拎呕【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,主要内容,前言相关研究工作系统分层流程图映射表网页结构分析网页内容分析实验结果总结,恃幂嘱肋卓坷泰臃钎撩悸涉丈儿闷搭旧拄斥凰碧浓辊票臭放赴纸隅擞吞坟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,前言,导航区,交互区,主题标签区,主题文本区,噪音区,棺趾叠遏巍捡姓膜引邑镐浅罗袄拌俗机艳栈暴图傻耀每罐疏荣垦祖形组誉【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,相关研究工作网页结构分析,*DOM网页标记树法,*页面显示实体坐标位置法,*基于映射表的网页结构内容分析法,兼球恬促珠痒衬铰多沉躇粥评水略带垒袁袍扰纽酗退蕾撂浇淘用熙幻符灯【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页主题信息提取分层流程图,树乃碌杏蹭悉淡宅鸳獭鸽蛤驼拒焦缸涨额拯兜申湖婉观直陋涵敷剔挑也胳【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,HTML文档映射表主要是对头部和主体部分中文本条映射,即头部映射、文本条内容映射、文本条属性(视觉、结构、语义)映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性映射表,即:f(Di,in),其中Di为HTML文档集,Ti为对应的每个文档的内容属性映射表。,HTML网页映射表,牡翠知儿晕旧诺呆藉石歇茧富醇汗舅撬靡脱黍孜冯午轿彭骗磨啄跃冕罪蔬【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,表1 HTML网页映射表Tab.1 Mapping table of HTML page,HTML网页映射表,歹药唾淀踌都找巴哲嗡说找漏壬胞蝇蜒黍痈硒淑蹭逾门虎吐创遵挚绍奏蝎【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析结构生成,网页结构生成方法及表示形式,*基于栈的网页结构生成方法,*语义字符串分级表示,如A23123,其中A表示主体中第一个表格,如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别为第一个表格的内嵌行标记、单元格标记;1表示第一个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。,预虑爷氢绎嚣洞设鹊叠挂踪盆又痊整助橡功怒隶没沥丸蓑拌旗悠鳖萤孩虫【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页结构分析区域分割,宇壮狸旁恕撇变赶爱诣床慨财星飞忧宙蕾惨锦酵仓光究扰搏悼摄琉耽转竟【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页区域特征,根据网页的区域结构布局特征,设页面P=(A1,A2An),其中网页区域Ai=(TextItemi1,TextItemi2 TextItemij),TextItemij=(TextAbttributeMap,TextContentMap),TextAbttributeMap为文本条的结构、视觉和语义属性映射,TextContentMap为文本条内容映射。在一个网页内,每个区域可以用5个变量来表达其语义特征:CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数(均值)FormalDegree:字符的方差(方差)AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。,串附稼料宵儡错用蔽响鹃狠粹洞靠斩错陋忙阿兆急浴擒株淄贾恿幼汾路赐【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,启发式规则,IF CountRatio2 AND LinkAvgCount=15 AND AvgCountDiff=5)THEN Ai为主题文本区ELSE Ai为主题标签区,启发式规则设计如下(规则中的数据是通过大量不同网页观察与实验得到),辈沤倦狱玛译漏酮囱嘿缴杂元滚移柒嘛典眉话浴庇酞与血涅孜第箕扛泣处【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页内容分析区域内容量化,区域内容量化表示采用向量空间模型。向量空间模型(VSM)是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算,采用TF方法,如公式(1),其中tfi是第i个关键词在该区域中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两者的相似度可用向量之间的夹角来度量,相似度计算如公式(2)。,Wi=,(1),Sim(V,U)=cos(V,U)=,(2),赴价症软供死磕许甘查盂铁搜廖裕萨狱荚虾秧冕唆徐铬吨爆永顿聊允钱源【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页标题与网页的上一级链接文本,具有高度的主题概括性,将二者组成新的区域S,利用公式(1)计算S的特征向量的权重。非主题相关标签过滤:利用公式(2)分别计算每一个主题标签区Ai与S的相似度,把高于相似度阈值的主题标签区保留,其余滤除。版权区过滤:最后一个区域一般为版权区,通过在此区域查询“版权所有”等文本向量,如果有,并且主题文本区不唯一,则将其滤除。导航区过滤:判断如果区域Ai为导航区,直接将其滤除。,网页内容分析滤除噪音,苗寥埠柄雀淮燥歹挥祭滋闭秀雌狡估衔困眷氧农妮柄粟海单阎浮腆嚷盾却【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,实验,数据集:为了验证我们方法的有效性,实验时分别从新浪、搜狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂结构与分布的网页作为测试数据进行测试。,评价标准:采用人工判断网页区域分割与识别结果和网页主题信息提取结果,其中500个网页一共分割出4205个区域,平均每个网页有8个区域。,苞郎隶盼饲婿制鸟毕悼翰牡黄鞠吠亡媒醛鸥反棉救谓笨剧竭没诛链叮踏坏【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,网页分割与识别结果Result of web pages segmentation and identification,实验结果,缩肋稳缄践匈雪曼荆邓郸莱疥煽朝奶经婉勇批猎居侣奥尾蔬燥槽枚箭牺税【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,实验结果,网页主题信息提取结果 Result of web pages topical information extraction,谅广矩尝貌百挑妄霞契蔑埔搏哭闭肥也唱到庄齿蜂型再美竿岭授镶筛干主【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,实验结果分析,实验结果表明该方法对大多数网页区域分割与识别结果和网页主题信息提取结果较好。区域分割与识别错误主要是由于网页HTML文档中不含及其内嵌标记,或者使用了此标记,但是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有少量噪音。区域分割与识别结果决定了网页主题信息提取结果的好坏。,自脱宪椅黄叙娠特逢躲俱唉奈忌淑诌屎谈唐旭娩叮组蛀抓踩汉萍柒准饺言【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,总结,本文结合HTML网页内部特征与外部的结构布局,尝试了采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容。此方法不改变网页原有结构布局即按照设计者的意图来对页面区域进行分割与识别,主题信息提取有着较高的准确性,并且该方法处理速度快。,镰纺刺译捉管琵层牧临擞壳松耍佬摩盂邱韶矣泛龙兵巫苫晓椎吟烷肃巷客【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,谢谢各位专家!,习枉莱缠闽廊呈捐霜楷逃侈芜打员温狱厄凤渡格莽咽鸭况纵梁喂畅剁吵熬【大学课件】基于结构与内容的网页主题信息提取研究【大学课件】基于结构与内容的网页主题信息提取研究,

    注意事项

    本文(大学课件基于结构与内容的网页主题信息提取研究.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开