TRS企业搜索引擎白皮书.doc
《TRS企业搜索引擎白皮书.doc》由会员分享,可在线阅读,更多相关《TRS企业搜索引擎白皮书.doc(22页珍藏版)》请在三一办公上搜索。
1、TRS企业搜索引擎白皮书据统计,企业(企业级组织机构的统称)每年的数据增长超过100%,其中80%以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。有数字表明,企业98%以上的信息存储在企业内部,而发布到互联网的信息仅占信息总量的1%-2%。自从有了信息,那么“搜索”就会成为人们永远避不开的宿命。因此,如何方便、快捷、安全地获取企业内部的信息,造就了一个新的,但实际上非常传统的应用企业搜索引擎。TRS公司推出的企业搜索引擎解决方案,利用TRS公司多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台,辅以
2、各种数据索引工具,配套数据内容分发服务模块,提供完整的、智能的、安全的、个性丰富的企业搜索引擎服务。北京拓尔思信息技术有限公司Beijing TRS Information Technology Limited目 录一、 搜索引擎面面观 3二、 企业搜索引擎不同于互联网搜索引擎 5三、 企业搜索平台构建企业搜索引擎应用 8四、 TRS企业搜索引擎架构 10五、 TRS企业搜索引擎核心优势 15 “安全”的搜索引擎 全息搜索 更高的搜索准确性和智能性 个性化的搜索体验 实时资源整合搜索 强壮可靠的系统、低成本按需扩展 基于内容的自动分类和聚类技术 优异的全文检索性能六、 TRS企业搜索引擎应用实
3、例 17 政府政府某部搜索引擎系统 政府深圳信息资源决策服务系统 媒体新华社多媒体数据库搜索引擎服务 企业广东移动搜索引擎服务一、搜索引擎面面观互联网,这个时代的宠儿,注意力的焦点,在出现短短的10年来,演绎着IT领域的传奇,在诠释注意力经济的同时,互联网本身也一直成为这个时代人们的注意力焦点,并且我们也毫不吝啬地把我们这个时代称之为“互联网时代”。互联网的出现,信息的高速膨胀,搜索成为互联网上信息获取的主要手段。自1994年YAHOO推出了超级目录索引,从而成功地使搜索引擎的概念深入人心。如今,搜索引擎进入了高速发展时期,目前互联网上的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。
4、比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!“搜索引擎”这个词也成为流行词语,媒体、大众、资本也狂热得无搜不欢。并且,业界又大胆地提出“互联网已经从注意力经济过渡到搜索力经济”了。在互联网上搜索引擎服务热潮一浪高过一浪的同时,我们也注意到另外一个现象,就是组织机构内部信息化浪潮,催生了大量的信息内容。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。有数字表明,企业发布到互联网的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。自从
5、有了信息和内容,那么“搜索”就会成为人们永远避不开的宿命。由此,如何方便、快捷、安全地获取企业内部的信息内容,造就了一个新的,但实际上非常传统的应用“企业搜索引擎”。似乎业界也看到未来企业级搜索引擎的庞大技术市场,各大IT巨头都纷纷推出了其相对应的软件产品和技术。同样,因为信息的越来越多,人们使用计算机,使用信息的频度也越来越高。而在个人电脑中也就积累了大量的个人信息,如邮件、文档、下载的各种网页。对于个人桌面的信息搜索诉求,我们把她总结成为“个人搜索引擎”。我们可以从下表直观地对搜索引擎有全方位的理解:互联网搜索引擎个人桌面搜索引擎企业级搜索引擎搜索范围整个Internet网络。 个人电脑
6、企业内部所有的信息资源,以及部分外部资源。 搜索对象网页、图像及MP3等部分类型的多媒体文件。PC内部的所有文档信息。 企业资料库、目录、帮助文本、源代码信息库、新闻组等。如:网页、电子邮件、Office文件、PDF文件、图片、音视频多媒体文件、图表、公文、研究报告等。应用特点大而全,旨在为用户提供更丰富的搜索结果。 面向个人文档管理的智能化搜索工具。 专业、定向的搜索,注重结果的准确性和高度匹配性,并且是一种信息安全的搜索。从上表可以看到,三类搜索引擎有着截然不同的搜索目标和应用特点。因此,其在实现技术机制和手段上也存在着极大的差异。长期以来,因为传媒关注的总是热点,造成市场上混淆了这三者的
7、区别。一提到搜索引擎,就自然联想到互联网搜索引擎,再加上一些厂商刻意的推波助澜,造成了互联网搜索引擎取代所有搜索引擎的概念。而实际上我们可以看到不同搜索引擎之间的差别很大。二、企业搜索引擎不同于互联网搜索引擎首先,我们所说的企业搜索引擎(Enterprise Search Engine,简称ESE)中的企业并非指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级”,即企业级搜索引擎。那么,对于企业级搜索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢?实际上,搜索引擎服务是内容管理技术的一个典型应用。我们不妨从内
8、容管理的框架来看搜索引擎的各个环节,即从信息内容的采集,加工,管理,到服务,以至到信息内容的“发现”来比对一下企业级搜索引擎的不同。*SEO:搜索引擎优化,利用工具或其他手法夺取较好的网络排名。1、复杂结构数据的搜索互联网上搜索的数据一般都是网页形式的,尽管这几年网上丰富起来的图片、MP3等信息形式,但其组织形式仍是基于HTML组成的网页。而企业级用户需要搜索的数据既有互联网站上的,也有内部网站上的;既有网页形式的,又有各种数据库形式的,如SQL Server、Oracle数据库等;既有结构化数据,又更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、Lotus Note
9、s、PDF、XML等;既有文本形式的数据,又有多媒体形式的数据;而且,同一机构的数据还可能分布在不同介质的载体上。然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。并且,互联网搜索内容对于用户来说都是未知的,而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、帮助文本、源代码信息库、新闻组等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列。2、严格的安全搜索在企业内部,安全的问题是无法回避的。因为企业内部的信息不象“人人平等”的
10、互联网信息,其信息内容带有明显的“等级”安全特性。所以,当搜索技术变得无所不能,人们反而开始担心,如果搜索的结果泄漏了企业的机密怎么办?如果企业原有的安全架构对新的搜索技术失效了怎么办?这些疑问都让用户感到如鲠在喉,岌岌小心。很多业内人士在谈到搜索安全的话题就忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多的变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的魔爪还能透过授权的索引文档来搜索它们。因此,针对企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统
11、的安全。 3、高可靠的查全和查准作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的查全率和查准率有着非常高的要求。因此,需要利用各种手段来提高搜索引擎的查准率和查全率。从查全率来看,互联网搜索引擎无从谈起查全率,因为互联网上的信息如此泛滥无边,任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而在企业级的某些应用中,是不允许有所遗漏的检索。必须对企业内部每个需要提供服务的信息进行索引。在检索机制上必须保障效率的前提下达到全面搜索的要求。同样的道理,在互联网上因为信息自由的特点,决定了搜索只能通过“关键词匹配”这种核心检索手段去实现。而在企业内部,信息的组织复杂了许多。企业级搜
12、索引擎有完善的信息分类体系,元数据,对象数据多层逻辑的组织形式,在查询上满足基于对象数据内容和元数据标引体系的精确查询要求。4、智能化的检索服务企业内部的搜索服务,带有鲜明的业务特性,不像互联网搜索引擎仅提供信息参考。在企业内部的搜索结果将直接参与到企业的运营、决策中。所以,对于搜索的结果处理,搜索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息非常重要。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进
13、一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等,都将有利于企业对信息资源的高效利用。5、企业搜索引擎通常都和企业其他的IT应用有机结合以内容管理技术为框架,搜索技术为支撑,企业搜索引擎通常与数据管理、内容管理、记录管理、竞争情报、团队协同、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知识资产的完整而又灵活的体系。知识内容管理对搜索引擎技术提出了更高的要求,而先进的搜索引擎技术则为知识内容管理提供了工具和保障。在市场上我们也可以看到,国内外企业级搜索引擎厂商,有许多也是知识内容管理解决方案的提供商。6、实时的信息搜索服务正如前所叙,
14、企业内部的搜索服务,具备业务特性,需要将搜索结果参与企业的运营和决策。所以通过搜索引擎提供的服务,必须能够动态地反应实际情况,即当内部的信息发生变化时,必须能够实时反应。在企业,不允许出现像互联网搜索引擎服务那样信息滞后更新的现象。三、企业搜索平台构建企业搜索引擎应用综上所述,企业搜索引擎和互联网搜索引擎有着明显的差异。而且正因为企业搜索引擎从应用角度来看,对于技术供应商来说是个更加宽阔的市场。由此,进入2004年以来,市场上相继出现了一些热点。搜索厂商们开始摩拳擦掌,准备在这场企业搜索战役中抢占先机了。最近,越来越多来自于企业级搜索的消息在我们耳边围绕:Google的专用搜索设备不断出新,意
15、在将其在互联网搜索引擎霸主地位延续到企业搜索引擎市场中来。IBM DB2 Information Integrator、Oracle Files 10g相继推出,数据库厂商领土扩张的雄心显露无疑;Yahoo通过合作与并购的方式连连出招;Microsoft将搜索产品的发布时钟与 Longhorn正式看齐.从技术的走向来看,分两种流派:一是数据库厂商在自身的关系型数据库中增强检索服务能力,以期多个应用系统都部署各自的搜索服务,而通过一个联合搜索的方式实现企业内的搜索引擎服务。二是更多的从事传统的内容管理厂商,在认真分析了企业搜索引擎服务的特点后,提出了企业搜索平台(Enterprise Searc
16、h Platform,简称ESP)的提法。这一“技术流派”的支持者以国内企业搜索引擎市场第一占有的TRS为代表,还有国外的AUTONOMY、VERITY等公司。现实情况是,企业内部的信息存储在各个应用系统中,并且采用不同的系统进行管理并提供各自的搜索服务。例如:一个在内容管理系统中,另一个在Microsoft Office环境中,还有一个在电子邮件程序中,采用ESP架构需要各个数据库中的数据进行统一的、关联的索引。并且还能在搜索之前对查询语句进行语法翻译,以及拼写检查、短语检测等语言处理。在执行搜索步骤后,ESP会把从原始将对应的各个数据库中内容进行用户要求的封装后返回给用户。这样,用户就可以
17、借助结果页面中的类别链接逐级缩小查询范围,提炼出想要的结果了。四、TRS企业搜索引擎架构国内信息检索和内容管理软件的领导厂商TRS公司在企业搜索引擎领域占据着国内企业级搜索引擎市场的80%,并且一直是该领域的技术领导者和理念先行者。公司已从成立之初提供基于中文的信息搜索软件,发展到今天成为基于内容管理技术提供丰富的全面的企业搜索引擎产品和解决方案的中国最具实力的软件开发商之一。在实践中积累了丰富的业务经验,在技术、产品和实践方面具有独特优势。TRS公司推出的企业搜索引擎解决方案,利用TRS公司多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台。辅以各种数据索引工具
18、,配套数据内容分发服务模块,构建成一个完整的,能够索引企业内部全面的信息内容,提供安全分级授权的、个性丰富的检索体验的企业搜索引擎服务。其框架如图:从图中可以看到,要实现一个完整的企业搜索引擎服务,首先需要将存储在企业组织内部的各类信息通过对应的手段索引到企业搜索引擎服务平台服务器中。在TRS提供的解决方案中,即将各类信息索引到TRS Database Server(TRS企业搜索引擎基础平台),然后通过有效的信息分发服务模块实现定制化的企业搜索引擎服务。从技术角度来看,TRS搜索引擎框架中,很好地利用模块化的软件解决了企业搜索引擎应用中的三个核心环节:内容实时发现索引、内容海量安全管理、内容
19、智能个性搜索。并且TRS搜索引擎方案突破了纯粹的“搜索”概念,在搜索后处理方面,TRS出色地解决了“内容挖掘分析利用”这个课题。内容实时发现索引在企业搜索引擎服务中,首先需要解决的一个问题就是如何将多种格式、多种介质形态、多种存储方式的内容信息,以实时的方式将这些信息进行索引。并且在索引的过程中力求能够做到准确,并配合以相关智能语言技术做信息的去重、自动标引等能力。TRS公司针对各种信息的来源和形态提供了一系列的辅助处理工具:TRS网络信息雷达系统(TRS InfoRadar)针对企业搜索引擎服务中,需要对部分互联网网站的信息进行收集,并作为企业搜索引擎的重要内容来源。为满足此类需求,TRS提
20、供的网络信息雷达系统,采用高效的网络搜索技术,监控和采集互联网信息,支持智能分类、自动排重和灵活发布,实现海量网络信息的高效采集、组织。将采集和分析处理好的数据实时提交到企业搜索引擎平台服务器(TRS DATABASE SERVER)中。TRS数据检索网关(TRS Gateway for RDBMS)在企业内部,许多信息内容的创建和生产都分散在各个应用系统中,而这些应用系统的数据存储基本上都是采用关系型数据库或者NOTES系统中。在企业搜索引擎应用中,一个核心明显的需求就是,当这些应用系统的数据产生和变化时,希望实时地通过企业搜索引擎服务迅速查找到。这就需要有相关技术能够实时发现新数据,并在发
21、现的同时索引到企业搜索引擎平台服务器中。TRS公司提供了针对系列的主流关系型数据库和NOTES的检索网关模块,能够将应用中的数据实时地反映到企业搜索引擎平台服务器中(TRS Database Server)。TRS 数据处理工具(TRS Data Processor)在实际应用中,企业搜索引擎还需要面对企业内部各种类型的数据进行加工、标引、加载到TRS数据库中,通过TRS Data Processor可以优化后续的检索、发布服务。TRS Data Processor对已经进入TRS数据库中的数据进行深层次的联机加工,将信息及时索引到TRS企业搜索引擎平台服务器(TRS Database Ser
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- TRS 企业 搜索引擎 白皮书
链接地址:https://www.31ppt.com/p-2394454.html