网络信息采集与利用.ppt
《网络信息采集与利用.ppt》由会员分享,可在线阅读,更多相关《网络信息采集与利用.ppt(75页珍藏版)》请在三一办公上搜索。
1、1,网络信息采集与利用,贾朝辉,2,本课程共九章,第1章 网络信息资源概论 第2章 网络信息处理方式及关键技术 第3章 搜索引擎及其使用 第4章 其他网络信息资源及其使用 第5章 联机检索技术及其应用 第6章 网络学术数据库信息采集 第7章 非万维网网络信息的采集 第8章 网络信息编辑 第9章 网络竞争情报采集与分析,3,第1章 网络信息资源概论,第一节 互联网概况第二节 网络信息资源概述第三节 网络信息资源的类型第四节 网络信息资源检索第五节 网络信息采集与利用的未来趋势,4,第一节 互联网概况,一、互联网在中国的发展二、互联网术语1.通信协议2.IP地址3.子网和子网掩码4.域名系统5.中
2、文域名6.网络实名7.局域网及广域网8.Internet服务器,5,第一节 互联网概况,三、Internet提供的服务1.电子邮件2.电子公告板3.远程登录4.网络新闻5.文件传输协议6.博客7.其他服务,6,第一节 互联网概况,四、计算机网络安全1.防火墙技术2.密码技术,7,第二节 网络信息资源概述,一、网络信息资源的含义二、网络信息资源的特点存储数字化表现形式多样化以网络为传输媒介传播方式的动态性信息源复杂,8,第三节 网络信息资源的类型,一、按所对应的非网络信息资源分类二、按人类信息交流的方式分类三、按信息存取方式分类四、按网络信息资源的层次分类,9,第四节 网络信息资源检索,一、网络
3、信息资源检索的方法浏览信息借助网络检索工具利用搜索引擎在线数据库查询,10,第四节 网络信息资源检索,二、网络信息资源检索的技巧主题指南与搜索引擎相结合缩小检索范围扩大检索范围使用组合搜索关键词强制搜索模糊搜索先思考先分析,11,第四节 网络信息资源检索,三、影响网络信息资源检索的因素信息资源的质量检索软件用户水平四、提高网络信息资源检索效率的方法培养“信息素养”不断探索、积累经验、提高信息获取能力,12,第五节 网络信息采集与利用的未来趋势,一、网络检索自动化技术的发展二、多媒体技术的应用三、多语种检索四、检索工具智能化,13,第2章 网络信息处理方式及关键技术,第一节 文献标引理论第二节
4、检索语言第三节 计算机信息检索第四节 元数据技术第五节 中文自动分词处理技术第六节 文本自动处理技术第七节 网络信息挖掘,14,第一节 文献标引理论,一、文献标引的概念 1.文献标引的目的及意义 2.文献标引的方式 3.主题标引与分类标引的异同,15,第一节 文献标引理论,二、文献分类标引原则 1.学科属性原则 2.专指性原 3.实用性原 4.系统性原则 5.逻辑性原则 6.一致性原则 7.“其他”类原则 8.入上位类或依论述重点归类原则 9.新学科、新主题文献分类原则,16,第一节 文献标引理论,三、文献主题标引 1.特征 2.类型四、网络信息资源的分类标引,17,第二节 检索语言,一、检索
5、语言的概念二、检索语言的分类 1.分类语言 2.主题语言,18,第三节 计算机信息检索,一、计算机信息检索概述 1.计算机信息检索概念 2.计算机信息检索的特点 3.计算机信息检索系统的构成 4.计算机信息检索系统的分类,19,第三节 计算机信息检索,二、计算机信息检索技术 1.布尔逻辑检索 2.截词检索 3.字段检索 4.位置算符检索 5.全文检索,20,第四节 元数据技术,一、元数据的概念二、元数据的应用 1.元数据的应用目的 2.元数据的应用领域 3.Metadata格式的应用现状,21,第五节 中文自动分词处理技术,一、中文自动分词概述二、中文文献的索引方法 1.基于字符串匹配的分词方
6、法 2.基于统计的分词方法 3.基于理解的分词方法三、简单的匹配方法 1.正向减字最大匹配法(MM)2.逆向减字最大匹配法(RMM)3.正/逆向结合的方法,22,第五节 中文自动分词处理技术,四、典型自动分词系统介绍 1.早期的自动分词系统 2.清华大学SEGTAG系统 3.复旦分词系统,23,第六节 文本自动处理技术,一、文本自动处理技术概述二、文本自动分类 1.数据准备 2.训练 3.运行三、文本自动聚类四、自动文摘,24,第七节 网络信息挖掘,一、网络信息挖掘中的关键技术 1.目标样本的特征提取 2.中文分词处理 3.获取网络中的动态信息二、网络信息挖掘技术流程的实现三、网络信息挖掘技术
7、在搜索引擎中的应用,25,第3章 搜索引擎及其使用,第一节 搜索引擎概述第二节 搜索技术基础第三节 搜索引擎Google的使用第四节 百度搜索的使用第五节 特色搜索引擎,26,第一节 搜索引擎概述,一、搜索引擎的历史二、搜索引擎的分类三、搜索引擎的工作原理四、搜索引擎的组成五、搜索引擎的性能指标,27,第一节 搜索引擎概述,六、搜索引擎面临的挑战 1.网络信息量迅猛增加 2.网络信息的无序化 3.信息的有用性评价困难 4.网络信息日新月异的变化 5.带宽等其他因素,28,第一节 搜索引擎概述,七、搜索引擎的未来发展 1.破解用户之意,信息抽取,优化排序 2.基于视觉网页块分析 3.网页库内容分
8、类 4.潜在相关性 5.网页结构化信息抽取类技术 6.自然语言处理,简单的语意语法分析 7.重复识别,29,第一节 搜索引擎概述,8.行业优化 9.相关搜索 10.采集更多的数据 11.跟踪互联网变化,进行细节上的优化,30,第一节 搜索引擎概述,八、常用搜索引擎简介 1.英文搜索引擎 2.中文搜索引擎,31,第二节 搜索技术基础,一、基本的搜索技巧 1.简单信息查找 2.使用双引号进行精确查找 3.使用加减号限定查找 4.有针对性地选用搜索引擎 5.细化查询 6.根据需求选择查询方法,32,第二节 搜索技术基础,7.注意细节 8.利用选项界定查询 9.尽可能将搜索范围限定在特定的领域里 10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 采集 利用

链接地址:https://www.31ppt.com/p-5445614.html