网络信息过滤技术.pptx
《网络信息过滤技术.pptx》由会员分享,可在线阅读,更多相关《网络信息过滤技术.pptx(34页珍藏版)》请在三一办公上搜索。
1、网络信息过滤技术,目录,基本信息与发展历史 刘伟网络信息过滤技术方法 史波网络信息过滤技术应用 伍思同现状分析及发展趋势 张旭,互联网的飞速发展在给人们的工作、生活、学习等诸多方面带来巨大便利的同时也带来诸如“信息超载”以及“不良信息”和垃圾信息的侵害等问题。信息过滤技术由此产生,并广泛应用到了网络的各种信息处理过程中,对网络信息实用化具有极大的推动作用。,网络信息过滤技术采取适当的技术措施,对互联网不良信息进行过滤,既可阻止不良信息对人们的侵害,适应社会对意识形态方面的要求,同时,通过规范用户的上网行为,提高工作效率,合理利用网络资源,减少病毒对网络的侵害,这就是信息过滤技术的根本内涵。,网
2、络信息过滤是根据一定的标准运用一定的工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法和过程。,网络信息过滤有利于减轻用户的认知压力。它在为用户提供所需要信息的同时,着重剔除与用户不相关的信息,从而提高用户获取信息的效率;它根据用户信息需求的变化提供稳定的信息服务,能够节约用户获取信息的时间,从而极大地减轻用户的认知负担,起到减压阀的作用。,目前网络信息过滤的工作概括为2项:一是建立用户需求模型。即用户模板,用于表达用户对于信息的具体需求。建立用户需求模型的主要依据是用户提交的关键词、主题词或示例文本。,二是匹配技术,即用户模板与文本的匹配技术。简单地讲,任何信息过滤系统就
3、是根据用户的查询创建用户需求模型。将信息源中的文本有效表示出来,然后根据一定的匹配规则,将信息源中可以满足用户需求的信息返回给用户,并根据一定的反馈机制,不断地调整改进用户需求模型,以期获得更好的过滤结果。,网络信息过滤对个性化信息服务起到了巨大的推动作用。在个性化信息服务中,最重要的是收集和分析用户的信息需求。由于信息过滤的反馈机制具有自我学习和自我适应的能力,可以动态地了解用户兴趣的变化,掌握用户的信息需求,从而为用户提供更有针对性的信息。在协作过滤系统中,还可以根据用户之间的相似性来推荐信息,从而有可能为用户提供新的感兴趣的信息,拓宽用户的视野。,通过网络信息过滤,可以减少不必要的信息传
4、递,节约宝贵的信道资源。利用网络信息过滤,可以对网络信息的流量、流向和流速进行合理的配置,使网络更加畅顺。而对于用户来说,信息过滤由于剔除了大量的不相关信息的流人,可以避免塞车现象。,网络信息过滤技术的发展历史,“信息过滤”最早出现在1982年的3月美国计算机协会上。1992年,代表了世界文本检索领域最高水平和文本检索领域最权威的国际会议之一的文本检索会议召开,并将过滤作为其一个重要的议题。会议对信息过滤学科形成和发展提供了强有力的支持。,网络信息过滤技术方法,基于内容的信息过滤 从网络信息过滤结构 基于合作的信息过滤(协同过滤)内容过滤 从网络信息过滤的依据 网址过滤 混合过滤,基于内容的信
5、息过滤,基于内容的信息过滤通过用户模型(user profile)来描述用户的信息需求,将新获取的信息与用户模型进行相似度计算,主动将相似度高的信息提供给用户。内容过滤的基本思想是,给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。核心任务就是计算物品的内容相似度。,基于内容的过滤优缺点,优点:基于内容过滤利用资源和用户兴趣的相似性来过滤信息,它的关键问题是相似性计算,其优点是简单、有效。这种过滤技术已经比较成熟,使用也相对较广。缺点:基于内容过滤难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源.随着信息的剧增,效率和质量会降低;使用过程中
6、难以发现新的感兴趣的信息;一旦过滤方法选择错误,后果将很严重。,基于合作的信息过滤,基于合作的过滤技术根据人的判断为用户过滤信息,它使用多个用户信息预测单个用户的偏好根据相同或相近兴趣的用户对应信息做出评价,向其用户进行推荐。由于不依赖于内容,这种模式不仅适用于文本格式,也可以适用于非文本介质的资源,如视频、音频等。基于合作的协同过滤,首先从数据库里获取他之前喜欢的东西,然后从剩下的东西中找到和他历史兴趣近似的东西推荐给他。核心是要计算两个东西的相似度。,基于合作的过滤优缺点,优点:协作过滤系统利用用户之间的相似性来推荐信息,它能够为用户发现新的感兴趣的内容,其关键问题是用户聚类。并且能为用户
7、发现新的感兴趣的信息。缺点:需要用户的参与。稀疏性问题,在系统使用初期,由于系统资源还未获取足够的信息,系统很难利用这些信息来发现相似的用户。另一缺陷是系统可扩展性,即随着系统用户和信息资源的增多,系统的性能会下降。,对比,可以注意到基于内容的信息过滤和基于合作的信息过滤(协同过滤)的相同点都是要计算两个物品的相似度,但不同点是前者是根据物品的内容相似度来做推荐,给物品内容建模的方法很多,最著名的是向量空间模型,要计算两个向量的相似度。而后者根据两个物品被越多的人同时喜欢,这两个物品就越相似。由此可以看到两种方法的不同点在于计算两个物品的相似度方法不同,一个根据外界环境计算,一个根据内容计算。
8、,例1,用户u1喜欢的电影是A,B,C用户u2喜欢的电影是A,C,E,F用户u3喜欢的电影是B,D我们需要解决的问题是:决定对u1是不是应该推荐F这部电影基于内容的做法:要分析F的特征和u1所喜欢的A、B、C的特征,需要知道的信息是A(战争片),B(战争片),C(剧情片),如果F(战争片),那么F很大程度上可以推荐给u1,这是基于内容的做法,你需要对item进行特征建立和建模。协同过滤的办法:那么你完全可以忽略item的建模,因为这种办法的决策是依赖user和item之间的关系,也就是这里的用户和电影之间的关系。我们不再需要知道ABCF哪些是战争片,哪些是剧情片,我们只需要知道用户u1和u2按
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 过滤 技术

链接地址:https://www.31ppt.com/p-4696400.html