电子商务-A-第08讲-补充.ppt
《电子商务-A-第08讲-补充.ppt》由会员分享,可在线阅读,更多相关《电子商务-A-第08讲-补充.ppt(30页珍藏版)》请在三一办公上搜索。
1、1/30,电 子 商 务,张文新 副教授,电话:,课 程 安 排,2/30,3/30,第8讲,电子商务搜索引擎技术,电子商务搜索引擎技术,搜索引擎的关键技术网络蜘蛛(Spider,Robot,Crawler)网页结构化信息抽取中文分词搜索结果排序,4/30,电子商务搜索引擎技术,网络蜘蛛(Spider,Robot,Crawler)对URL链接进行遍历基本数据结构一个待扩展的URL表一个已经访问过的URL地址表,5/30,图:网络蜘蛛基本数据结构图,电子商务搜索引擎技术,网络蜘蛛(Spider,Robot,Crawler)遍历URL地址遍历的策略广度优先深度优先,6/30,AB,C,D,E,F
2、H,G I,AF GE H I,电子商务搜索引擎技术,搜索引擎的关键技术提取文档中的文本内容(网页结构化信息抽取)HTML文件中提取文本识别网页的编码STEP-1:从Web服务器返回的content type中提取编码;STEP-2:从网页的Meta信息中识别字符编码;STEP-3:从返回流的二进制格式判断,确定网页语言。对HTML文件进行解析(识别三类节点)RemarkNode(注释)TagNode(标签)TextNode(文本),7/30,电子商务搜索引擎技术,提取文档中的文本内容(网页结构化信息抽取)HTML文件中提取文本(续)结构化信息提取DOM(文档对象模型)结构HTML扫描器例如:
3、Node.getAttributes().getNamedItem(“src”)参考NekoHTML()网页去噪网页结构相似度计算,8/30,电子商务搜索引擎技术,DOM树,9/30,电子商务搜索引擎技术,提取文档中的文本内容(网页结构化信息抽取)HTML文件中提取文本(续)网页结构相似度计算自动提取结构化信息的关键是:“从同样类型的实例中发现编码模板”。计算两个网页的结构相似度方法一:从HTML编码字符串检测重复模式,检测方法有:字符串编辑距离和树编辑距离,10/30,请参阅相关文献及编程资源,电子商务搜索引擎技术,HTML文件中提取文本(续)正文提取STEP-1:根据正文特征进行网页去噪正
4、文详细页面的特征:文字较多,有明显段落,标点符号较多,URL较长,链接较少;计算节点的“链接文字比”=“节点下链接数”/“节点下文字数”删除“链接文字比”大于某个阈值的节点;STEP-2:网页链接中锚点文本(网页标题)与网页正文关系分析STEP-3:自动模板,11/30,电子商务搜索引擎技术,搜索引擎的关键技术中文分词两类方法:“机械匹配法”和“统计法”机械法:最大匹配法利用正向或反向或双向最大匹配的方法来分词;借助标准的词典搜索词典统计法:最大概率分词法一个待切分的汉字串可能包含多种分词结果将其中概率最大的那个作为该字符串的分词结果,12/30,电子商务搜索引擎技术,中文分词机械法:最大匹配
5、法,13/30,例:“东北京西”,匹配算法数字搜索树Trie(三叉搜索树),电子商务搜索引擎技术,数字搜索树,14/30,例:“东北京西”,搜索最大高度是词典中最长词的长度;每个节点都需要消耗很多内存;,电子商务搜索引擎技术,Trie树Trie 树,又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成;用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。,15/30,电子商务搜索引擎技术,Trie树,16/30,标准 Trie树的结构:所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。假如有这样一个字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子商务 08 补充
链接地址:https://www.31ppt.com/p-4987599.html