《TRS全文数据库(DataBaseServer)V.ppt》由会员分享,可在线阅读,更多相关《TRS全文数据库(DataBaseServer)V.ppt(82页珍藏版)》请在三一办公上搜索。
1、TRS全文数据库TRS Database Server6.1北京拓尔思信息技术股份有限公司,系统概述(1),TRS SERVER全文数据库系统是由TRS公司开发的一个体系结构先进、功能强大的面向文本数据的数据库管理系统,广泛地用于各种信息数据库、以及信息门户的建设。TRS全文数据库服务器的核心技术为全文检索,全文数据库=全文检索+关系数据库的基本关系特征+Native-XML数据库特性;它为各种格式文档的存储、管理和检索提供动力。它的主要功能和性能如下:1.“零”空间膨胀率(-10%至20%)。2.基于成本优化的查询算法(索引分区技术,多线程并行运算技术,面向全文检索的Cache技术),使得G
2、级数据库查询速度达到亚秒级,并支持大量并发用户的同时访问。3.提供分布式检索和负载均衡集群服务器(TRS Database Cluster2.0),支持数据库一对多的单向镜像,提高系统的并发访问性能,在保证系统性能可用的情况下降低总的拥有成本。4.多线程设计,支持SMP体系结构。5.支持跨平台计算:支持NT4.0,Linux,Sun Solaris,IBM AIX,HP-UX,Compaq True Unix,SGI IRIX,SCO Unix。6.除了提供规范的C/C+API外,还提供COM和JavaBeans组件,可以使用符合工业标准的开发工具进行快速开发(ASP和JSP)。7.支持Uni
3、code(WCS2)。,系统概述(2),8.采用开放的数据存贮管理机制,通过TRS for RDBMS Gateway,可以透明地连接oracle、db2、sql server、sybase和informix五个主流的数据库管理系统。9.领先的中文信息处理技术:内嵌汉语自动分词系统,支持按词索引、按字索引、按关键词索引、二元组索引、字词混合索引、词根索引语言,大大提高检索的准确性和响应时间。10.检索信息快、准而且全:允许使用文中的任意字、词、句和片段进行检索,提供了基于文献内容而不仅仅是文献外部特征的全文检索手段。TRS所提供的按词和按用户自定义关键词进行索引和检索,以及基于知识词典的扩展检
4、索功能,满足了特殊应用领域的高查准率和高查全率的要求。11.检索功能强大:全方位检索手段,提供了多达48种检索运算符。包括外部特征与正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排序等。12.安全性好:具有系统级、数据库级、记录级和字段级四级安全控制机制。13.提供功能强大的TRS管理员工具:数据库维护、数据库的安全性控制、数据的完整性和一致性、数据库备份和恢复、用户管理等功能。,TRS全文数据库由服务器、管理工具和开发接口三部分组成,体系结构,TRS Database Server/TRS
5、Database ClusterTRS AdminTRS API(CAPI,Javabeans,ADO,.Net),Client/Server结构:,提供分布式检索和负载均衡服务,TRS全文数据库集群服务器:,案例,TRS Database 典型实施的案例:人民网新华社多媒体数据库CCTV音像资料库专利信息服务平台某部搜索引擎IT168行业搜索引擎电信114号码百事通,实例一:人民网检索,实例二:国家知识产权局专利检索系统(审查员使用),实例二:国家知识产权局专利检索系统(普通用户使用),实例三:新华社多媒体数据库,安装目录结构及作用启动和关闭,TRS数据库服务器,运行中文版Microsoft
6、 Windows NT Server 4.0(Service Pack3)以上版本操作系统的小型机、服务器、工作站、Pentium及其兼容机。内存【修订006】1GB 以上,建议使用4GB内存。一个可用空间在1GB 以上的独立硬盘或分区用于安装服务器。操作系统可使用的对换空间最好在1GB【#】以上 局域网连接设备 管理员工具和开发接口:以上外另支持2003和XP,服务器安装环境环境,硬件及软件环境,Unix(Solaris2.6/7,AIX4.3/5.1,HP-UX11.0;及以上)Microsoft Windows NT/2000/2003Linux2.4及以上内存:1GB以上;建议使用4G
7、B内存。管理员工具和开发接口:以上外另支持2003和XP,服务器安装环境环境,硬件及软件环境,运行安装介质上setup.exe 产生目录:TRSTRS HOME 安装过程中需要 输入产品的key 设定服务器缺省端口号 选择将服务器登记到WindowsNT系统服务中 选择服务器启动方式等操作,图形界面安装步骤,产品KEY,在序列号中输入产品键值。产品键值是由厂家根据您的机器号生成的,所以这时您需要与厂家联系,将上面对话框中显示的机器号告诉厂家以获得相应的产品键值。,服务器网络端口号,知识词典和示例数据库加载完成后,安装程序显示如图所示的对话框,要求你输入服务器的网络端口号。默认为8888,此时可
8、以修改。,登录NT服务及选择启动方式,DOS命令安装步骤,进入DOS命令安装包所在目录.执行tdbinstall(安装过程中需要)是否安装正式版本Install TRS Server as formal production?输入产品键值 Input PRODUCT KEY 输入安装目录 Input a target dir for TRS Server 输入服务器使用的网络端口 Input port number 安装程序提示,选择启动方式.,执行update,作用:获取UTF-8词典方法:dos命令,进入介质目录upgrade.UTF8,执行tdbupdate命令。,TRS Server
9、目录结构,TRSHome 目录,bin,system,dict,ibase,temp,oem,目录结构相关说明,bin:存放服务器所有可执行程序、动态连接库及版本信息文件。system:存放数据词典、系统配置及KEY文件,该目录下的文件是服务器的核心文件,不能破坏,否则服务器将无法正常启动和运行。除配置文件以及KEY文件外,其他文件均由服务器自动维护。ibase:服务器存放数据库的缺省目录,包括数据库的全部数据和索引。TRS允许用户设置并使用其他的目录来存储数据库。dict:存放服务器缺省的知识词典及用户定义的词典。oem:主要用来存放为TRS系统配置的OEM产品。用于文本过滤。temp:系统
10、的临时文件公用区。,tdbhostid.exe:获得安装机器的ID,用于产生服务器运行时所必须的KEY。trsserver.exe/tdbshutdown.exe:启动/关闭服务器的程序。tdbmaster.exe:服务器管理员-list:查看当前登录用户的相关信息;-password:查看系统管理员(system)的口令tdbservice.exe:将TRS服务器作为一个NT服务时,用于管理该服务的命令行程序。tdbconsole.exe:将TRS服务器作为一个NT服务时,用于管理改服务的图形界面程序,即TRS控制台。,Bin目录下系统命令,服务器的启动/关闭(1),TRS服务器启动后,占用
11、TCP/IP的8888端口,用户在启动时可指定端口号(必须大于1024)。方法1:命令行直接启动/关闭 启动:执行trshome/bin/trsserver.exe 端口号 关闭:执行trshome/bin/tdbshutdown.exe 端口号,服务器的启动/关闭(2),方法2:命令行启动/关闭做为NT系统服务的TRS服务器 启动:执行trshomebintdbservice start 关闭:执行trshome/bin/tdbservice-stop前提条件:一:操作系统必须是Windows NT/2000;二:在操作系统文件 NT目录system32driversetcservices中
12、已经加入trsxxxx/tcp这个服务端口;三:TRS服务器已经作为NT系统服务进行了注册。,服务器的启动/关闭(3),方法3:用TRS控制台启动/关闭作为NT系统服务的TRS服 务器。启动:在TRS控制台的菜单中选取“启动服务”功能。关闭:在TRS控制台的菜单中选取“关闭服务”功能。方法4:在操作系统启动时自动引导 首先登记TRS服务到NT系统服务中,并将启动方式设置为“自动”。每次重新启动时,操作系统将自动启动TRS 服务器。,服务器升级,要求:(1)服务器升级包中包含的文件(参见手册)必须放在同一目录下。(2)在进行服务器升级前,注意先备份原来的数据,然后关闭服务器。再运行安装包下tdb
13、update即可完成TRS服务器系统文件的自动更新。(3)如果所运行的tdbupdate处在服务器的bin目录下,则只会进行数据词典的更新,而不会进行服务器系统文件的复制。,小结,必须记住产品序列号,可以备份SYSTEMKEY文件。在使用TRS信息检索系统之前,必须保证先启动TRS服务器。掌握TRS服务器的启动和关闭方法。熟悉TRS服务器的目录结构。,TRS管理员,作用安装与卸载启动与退出基本概念:TRS对象及对象属性使用,管理员工具的作用,TRS管理员是TRS信息发布检索系统的客户端管理工具,主要用于对各种TRS对象进行管理、设计和维护等,并具备完整的检索、浏览和维护功能。,安装与卸载,软件
14、需求:中文WindowsNT/2000/2003/XP;TRS数据库服务器;安装:执行安装介质中的setup.exe卸载从菜单选择卸载程序进行目录结构:TRSTRSAdminbin:存放可执行文件、动态连接库和帮助文件等。TRSTRSAdminNavigate:存放数据库/视图的导航文件。TRSTRSAdminTemp:存放TRS管理员执行过程中生成的临时文件。,启动与退出,前提条件:TRS服务器处于启动状态双击桌面上“TRS管理员工具”图标输入:TRS 服务器地址端口号用户帐号名口令字第一次进入用系统默认管理员帐号名(system)和口令字(manager)登录可退出登录并用其他用户的身份重
15、新登陆,用户组用户数据库(数据库字段)视图(视图字段)词典文件格式,TRS基本概念:对象,用户组,用户组类似关系数据库里的角色,是有共同权限的用户群。组内用户继承用户组的所有权限,即:组内用户权限=用户组权限。TRS系统可支持多达65535个用户/用户组。系统安装时,将自动创建两个用户组/用户:administrator/system/和guest/pub。用户组名与用户组名之间,以及用户组名与用户名之间不能重复。创建用户时如果没有给用户指定组,则默认放在系统的匿名组中。,用户,TRS具有独立于操作系统的用户管理机制。要访问TRS系统,必须首先申请一个用户帐号。SYSTEM:system属于A
16、dministraor组,是系统的超级用户,不能修改名称,不能被注销,可由自己修改口令。PUB:PUB属于Guest组,是公共用户,不能修改名称,不允许设置口令,能被System注销,拥有登录权限(CONNECT用户)。,用户级权限,用户级权限对应于用户的类型。TRS系统有五种类型的用户级权限:超级用户(SYSTEM)系统数据库管理员(DBA 用户组数据库管理员(GDA)系统资源用户(RESOURCE)系统登录用户(CONNECT)超级用户只能是SYSTEM,在建用户时不可选。,超级用户SYSTEM所拥有的权限,维护系统配置。创建和注销用户组,维护所有用户组的属性。创建和注销用户,维护所有用户
17、的属性。创建数据格式,维护数据格式的属性。蕴涵系统数据库管理员的所有权限。,系统数据库管理员(DBA)所拥有的权限 不经授权就可对系统中的所有数据库、视图以及词典对象进行所有操作。(但不能创建用户、用户组、文件格式)蕴涵用户组数据库管理员的所有权限。用户组数据库管理员(GBA)所拥有的权限 不经授权就可对系统中与该用户处在同一用户组的用户所拥有的所有数据库、视图,以及词典对象进行所有操作。蕴涵系统资源用户的所有权限。,用户级权限(1),系统资源用户(RESOURCE)所拥有的权限 有权在系统中创建数据库、视图,以及词典对象。蕴涵系统登录用户的所有权限。系统登录用户(CONNECT)所拥有的权限
18、 有权登录到系统中。经过授权,可对系统中其他用户所拥有的数据库、视图,以及词典对象进行相应的操作。,用户级权限(2),数据库对象,创建、修改TRS数据库对象加载数据库记录,掌握记录入库格式检索数据库,掌握检索表达式的写法维护数据库对象,掌握数据库的复制、记录的复制、数据库优化等,数据库,数据库是TRS系统中的主要数据对象,它物理地存储了用户加载到系统中的所有数据资料。每个TRS系统可管理多达数十亿个数据库。数据库实际上是一个数据表,表的每一行是一个数据记录,每一列则是一个数据字段,行列的交叉点即为字段值。,数据库规模,数据库的规模主要指两个方面:能够容纳的最大记录数和数据库文件的最大容量。如果
19、是64位操作系统,则最多可容纳40多亿条记录。如果采用64位文件系统,则单个文件的容量实际上没有限制。另外,理论上TRS允许每个记录的最大长度为256M字节,每个字段值的最大长度为16M字节(如以ALONE方式存储字段值的长度不受此限制)。但在实际中,如果一个记录(或字段值)太长,会引起操作系统忙于虚拟内存的交换,使机器性能急剧下降,所以系统人为地限制一个记录的最大长度为机器物理内存兆字节数的64的倍数(最小为1)兆字节,如物理内存为128M,则允许的最大记录长度为2M字节。,数据库对象的创建,【说明】必须是具有Resource权限的用户才可以创建数据库。进入创建数据库对话框有三种方法:方法一
20、:选择“文件|新建”命令,在“新建”对话框里双击数据库图标;方法二:在对象管理窗口里切换到“数据库”标签,然后按工具栏上的按钮;方法三:在对象管理窗口里切换到“数据库”标签,然后在对象管理框按鼠标右键,出现菜单后选择新建。【注】数据库名称必须填写,数据库级权限,数据库权限、视图权限和词典权限统称数据库级权限。数据库权限共有五种:记录检索权(SELECT):拥有这种权限的用户,能够对数据库进行检索操作。数据更新权(UPDATE):拥有这种权限的用户,能够对数据库进行数据库加载、记录插入和修改操作。数据索引权(INDEX):拥有这种权限的用户,能够对数据库的索引进行创建、删除和验证操作。数据库结构
21、修改权(ALTER):拥有这种权限的用户,能够对数据库的属性及结构进行修改操作,包括增加和删除字段,以及修改字段的属性。数据库删除权(DROP):拥有这种权限的用户,能够删除数据库。,数据库属性,数据库存放的路径:必须是系统配置中的数据和索引路径之一,缺省为系统配置中的第一个数据。存放位置:有一类应用:TRS系统只管理和维护索引,而数据存储 在其它系统中就是通过此项设置的。此项如果不为空,内容是存储服务器的有关信息的字符串,如“ORACLE”,则表明实际数据集中存储在一个数据宿主服务器中,TRS系统只管理和维护索引。如果为空,则表明由TRS系统负责管理数据库的数据存放的位置。缺省值为空。字符集
22、和语言:客户端支持三种字符集。数据库支持15种语言 的切词。词典:数据库所用词典,缺省为系统配置中的缺省分词及停用词 典名。,词典,TRS的全文检索不单是一种快速的字串匹配系统,要获得良好的检索效果,必须使用一系列知识词典。词典对象是TRS系统中非常重要的基础资源,是按词索引和检索技术的根本依据。按用途划分,TRS系统有八种类型的词典:分词词典(SEGMENT)附加分词词典(SEGMENTEX)停用词典(STOP)附加停用词典(STOPEX)稀疏词典(SPARSE)主题词典(THESAURUS)同义词典(SYNONYM)反义词典(ANTONYM)其中,分词词典、附加分词词典、停用词典、附加停用
23、词典和稀疏词典是用来建立数据库的索引并进行查询的词典,统称为索引词典;主题词典、同义词典和反义词典是用于智能扩展检索的词典,统称为辅助知识词典。,索引类型及索引策略,索引类型 TRS系统有两种类型的数据库索引:B+树索引和倒排(INVERT)索引。这两种类型的索引相辅相成,互为补充。(详见手册)索引策略 对于英文数据库,TRS系统采用按词索引的固定模式。对于中文数据库,TRS系统则有四种类型的索引策略:按中文词检索的索引策略、按中文字检索的索引策略、按用户自定义关键词的索引策略,以及二元组索引策略。另外5.0支持字段混合索引模式和词根索引的语种的选择。在实际应用中,采用何种索引策略主要取决于数
24、据的特点、检索的需求和系统的资源等。不同的索引策略,所需的索引词典也不尽相同。(见下页),索引策略与词典的关系,按词索引策略,TRS内嵌的汉语自动分词系统是TRS的领先技术,使得TRS在国内外同类全文检索系统中独具特色。对大多数中文全文检索应用来说,按词索引是首选的索引策略。(其余策略介绍详见手册)其中内嵌的分词系统是采用以词典为基础的分词算法。分词词典用于汉语自动分词,由若干个汉语词汇组成,词典中的英文词汇不起作用。每部分词词典可容纳多达10万条词汇,每个词汇的最大长度为20个字节,即10个汉字。TRS系统提供的缺省分词词典的每个词汇具有语法属性,以提高分词的准确性。用户定义的分词词典或增加
25、的词汇则没有属性。该分词词典是经过加密处理的,用户可以浏览词典的词汇,但不能浏览其属性。,数据库字段(1),TRS数据库有六种类型的字段:日期型(DATE);数值型(NUMBER);字符串型(CHAR)短语型(PHRASE);全文型(DOCUMENT);二进制型(BIT)我们可以对CHAR,DATE,NUMBER进行字段级检索,对PHRASE和DOCUMENT进行全文检索,但对BIT字段不进行检索,系统规定BIT字段始终不建索引。所有的查询操作都是在一定的字段上进行的。每个数据库可定义1到1023个字段。,日期型字段(DATE)日期型字段只能用来存储“年月日时分秒”这类表示日期的数据。数值型字
26、段(NUMBER)数值型字段只能用来存储整数或实数。对于实数,可以限制其小数位的长度,在数据库加载时将忽略多余的小数位数。整数或实数不能超出机器的单精度浮点数所能表示的范围,可以使用科学计数法表示这些数据。字符串型字段(CHAR)字符串型字段可以用来存储任何形式的字符串。最大长度不能超过255个字符。,数据库字段(2),短语型字段(PHRASE)可以用来存储任何形式、任意长度的文本数据,最适合作为“标题”这样的字段。短语型字段与字符串型字段的最大差别在于短语型字段支持自动分词,而字符串型字段不支持自动分词,其字段值整体是一个索引键值。主要特点:没有长度限制;没有缺省值;没有取值范围;不允许多值
27、;加载时不进行字段值的唯一性检查;加载时允许空值;允许建立索引;支持自动分词,倒排索引属性固定(只有位置);字段值必须是文本数据;数据集中存储。,数据库字段(3),全文型字段(DOCMENT)既可以用来存储任何形式、任意长度的文本数据,也可以用来存储其它格式类型的多媒体数据。全文型字段区别于短语型字段的关键所在有三点:1、全文型字段的数据有多种存储方式。系统通常是集中存储短语型字段字段的数据,而分类存储全文型字段的数据,这样有助于提高大规模数据库的检索结果的概览(不包括全文型字段和二进制型字段)速度。2、全文型字段的字段值可以附加一个源格式数据。3、全文型字段的倒排索引属性可以任意指定。综合起
28、来,这类字段的主要特点是:没有长度限制;没有缺省值;没有取值范围;不允许多值,但允许附加一个源格式数据;加载时不进行字段值的唯一性检查;加载时允许空值;允许建立索引;支持自动分词,倒排索引属性可任意定义;字段值可以是多媒体数据;数据有多种存储方式。,数据库字段(4),二进制型字段 可以用来存储任何格式类型的多媒体数据,主要特点是:没有长度限制 没有缺省值 没有取值范围 允许多值 加载时不进行字段值的唯一性检查 加载时允许空值 不建立索引 字段值可以是任何多媒体数据 数据有多种存储方式,数据库字段(5),字段的混合索引模式,注意:混合模式只对具有“按词”索引属性的数据库的PHRASE 和DOCU
29、MENT字段有效。全冗余模式:将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可;缺点是索引空间膨胀大。半冗余模式:将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取“按词”的索引即可,且索引空间膨小;缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算。零冗余模式:将公共部分单独存储。优点是索引空间膨小;缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算,逻辑上,“按词”检索也多一次“或”运算。禁止词模式:该字段按字索引。另外:若未指明混合索引模式,则该字段索引模式取决于数据库。,词根语言
30、的支持,如果数据库指明进行词根索引,则所有的字母文字的单词都要进行词根处理。词根索引语种就是用来指定数据库中字母文字的语种,目前支持12种语言:英语、俄语、法语、西班牙语、葡萄牙语、意大利语、德语、荷兰语、瑞典语、挪威语、丹麦语、芬兰语。显然当一个字段中有多种字母文字时,就无法进行正确的词根处理。如果不指明词根索引语种,则系统将根据字母的种类默认一个语种:拉丁字母默认为英语;西里尔字母默认为俄语。,允许多值:一条记录的某字段可存多个值。PHRASE、DOCUMENT字段不允许多值。值唯一性:使用此属性可除去重复记录,仅对 CHAR,DATE,NUMBER字段有效。禁止空值:该字段是否允许空值。
31、仅对DATE、NUMBER、CHAR字段有效。索引属性:BIT字段始终不建索引。DOCUMENT和PHRASE字段可设置混合索引和 词根语言的选择。公共检索:选中表示所有用户均可对本数据库字段进行检索。,字段小结,字段权限,字段级权限包括数据库字段权限和视图字段权限。字段级权限只有一种,即:字段检索权(SELECT),拥有这种权限的用户,能够在该字段上进行检索操作。练习:1、创建自己的数据库,理解不同字段的属性和数据库级权限。2、创建一个带多值的数据库,并在相关字段上做唯一性检查。,数据库记录加载及数据入库格式,数据库建好以后,就可以把数据装库。数据装库有两种方式:联机录入和批量数据加载两种方
32、式。联机录入:双击打开数据库 点击记录菜单项添加记录(见演示),批量数据加载,步骤:1、选定目标数据库。2、准备加载文件。包括 数据文件:格式见下图。其中对于多媒体文件在DOCUMENT字段和BIT字段的加载有特殊的格式。数据文件实际上是由一个或多个记录数据组成的TRS标记文件,统称为TRS格式文件。包括:标准格式、字段内部标识号标记格式、字段顺序号标记格式、无字段标记格式和全文格式。单个TRS格式文件的大小不能超过2G字节。TRS系统的数据加载,除了支持以上五种TRS格式外,还支持ISO2709和XML格式文件的直接入库。(详见手册)控制文件:用来控制数据的加载过程的配置文件。(一般用默认)
33、,创建数据文件,TRS标准装库文件格式,数据记录文件实际上是由一个或多个记录数据组成的TRS置标文本文件。每个记录都以标记“”开始,如下(其中n=字段值1=字段值2=字段值n=字段值1=字段值2=字段值n可以在写字板中或者trs管理员工具中直接编辑。,日期数据书写格式,日期的书写格式有四种:通用格式:2001.07.10 10:10:20 AM 2001/07/10 10:10:20 AM 英文格式:07,10,2001 10:10:20 AM 07-10-2001 10:10:20 AM 无分隔符格式 中文格式 2001年7月10日10时10分20秒上午,日期函数,系统支持$DATE和$TI
34、ME特殊日期的入库$DATE()取当前日期$TIME()取当前时间$DATE(+7)取当前日期往后推七天的日期$DATE(-7)取当前日期往前推七天的日期$TIME(+60)取当前时间往后推60秒的时间$TIME(-60)取当前时间往前推60秒的时间,多媒体格式文件的加载,多媒体数据可加载到Document字段和Bit字段格式如:=c:temptest.docword=c:temptest.xmlword=c:temptest.jpgjpeg【注】对文本格式和HTML(XML)格式的数据入库后可以直接进行检索。其他格式象word、pdf类型的数据,需要使用后台的OEM插件。(OEM配置见手册)
35、,数据库对象的修改,对某个数据库做修改或删除操作时必须具备相应的权限才可以执行。数据库建立后,一般不应对数据库的结构或者属性进行修改。当数据库记录不为空而确有必要修改时,可先把数据库中数据存储成装库格式文件,然后按要求建立新的数据库后再把原始数据装入,最后删除原数据库。,数据库检索,一般检索 实现:在工具栏的输入框里输入检索表达式。最常见的逻辑运算符(+-*)和通配符(%,?):*:与;:异或;-:非;+:或(具体见帮助)“?”表示一个英文字符或汉字,用“%”表示0到多个英文字符或汉字。建立和使用导航树检索 通过建立导航分类树进行分类检索。高级检索 通过对话框生成复杂的检索表达式检索。,一般检
36、索例,输入“中国*北京”表示在默认字段(正文)查询中国和北京同时出现的记录。输入“中华%”表示在默认字段查询出现“中华”的记录,这里%为通配符。输入“日期1997.01.01*作者=王%”表示查询日期为1997年1月1日以后(不含)并且作者是姓王的记录。输入“作者=%国庆”将检索出所有作者为“张国庆”、“欧阳国庆”、“国庆”等的记录。输入“作者=张%”将检索出所有作者为“张国庆”、“张三”、“张”等的记录。输入“中国北京”将检索出默认字段或者出现北京或者出现中国的纪录,即两个值只出现其一的纪录。输入“作者=张?庆”将检索出所有作者为“张国庆”、“张大庆”等的记录,而作者为“张庆”的记录不会被检
37、索出来。,数据库维护,索引维护 由于非正常操作等原因,导致索引文件被破坏,不能进行检索,需要重新对数据库建索引。数据优化 对数据库的数据文件和索引文件进行优化重组。数据复制/恢复 指两个库之间数据的复制。数据库备份 注意!在备份设备的提示框里可修改默认备份的文件名,如:d:trstrshometempBackup1.bak数据库结构备份/恢复 选择“文件”菜单“导入/导出”项。数据库记录的导入/导出 打开数据库记录浏览窗口,选择“文件”菜单“另存为”。,视图,视图是TRS系统中的一种辅助数据对象。TRS系统支持对数据库记录和字段进行直接的授权机制来实现数据的安全保密性控制,但有时显得有些烦琐。
38、通过视图来限制某些用户对数据库字段和记录的查询,就可以用一种简便的方式间接地完成对数据库记录和字段查询权的控制。视图实际上是一个逻辑数据表,它是逻辑地从一个或多个数据库中抽取一个或多个字段并满足指定条件的记录。视图并不物理地存储数据,只是描述了组成该视图的数据所遵循的逻辑。每个TRS系统可管理多达数十亿个视图,每个视图中可包含1到128个数据库。,视图字段及视图权限,视图字段类型(六种)DATE,NUMBER,CHAR,PHRASE,DOCUMENT,BIT,对视图字段只有检索权限。视图权限(三种)记录检索权(SELECT):拥有这种权限的用户,能够对视图进行检索操作。视图结构修改权(ALTE
39、R):拥有这种权限的用户,能够对视图的属性及结构进行修改操作,包括增加和删除字段,以及修改字段的属性。视图删除权(DROP):拥有这种权限的用户,能够删除视图练习:在DEMO2数据库上创建一个视图,要求该视图中只包括日期=1997.1的数据?,数据格式,数据格式用来说明多媒体数据的格式类型。在数据库加载时,TRS系统将根据数据格式确定相应的数据存储方式,使用相应的分词方法;在数据输出时,TRS系统将根据数据格式对数据进行相应的处理,便于浏览。每个TRS系统可管理多达1023个数据格式对象。TRS系统在安装时,将自动创建常用的数据格式对象。(见手册)TRS系统允许用户自己定义新的数据格式,或者修
40、改已有的数据格式。数据格式一旦定义,就不允许删除,所以必须谨慎,只有超级用户(即SYSTEM用户)有权创建新的数据格式。,系统配置(1),系统路径:在建库时,库及词典相关的存放路径。最大排序:支持的检索结果最大排序数。物理内存:服务器的物理内存总量,以兆字节计算。最长空闲:允许一个用户实例(TRS系统为每一次登录都分配一 个独立的许可证)最长的空闲时间。以分计,超时 将自动Logout。最小有效:一个用户应该保持的最小有效时间(除非退出登录)以秒计。在此期间内不允许自动退出登录。检索历史:系统缺省的最大检索历史步数。最长检索:一次检索操作的最长执行时间,以秒计算。最大下载:系统允许的一次最大下
41、载记录数。这个配置项只有 在前端应用程序使用时,才发生作用。,系统配置(2),维护起始/维护终止 起始时间和终止时间之间的小时数为TRS系统进入空闲状态的检测窗口,如果不限定终止时间,则检测窗口为一小时。如果机器的当前系统时间在检测窗口内,并且已有一段时间(比如至少10分钟)没有任何用户访问TRS系统,则TRS系统进入空闲状态。在空闲状态下,系统可以进行一系列的自动维护任务,如优化数据库,整理用户实例等。当系统完成一个自动维护任务时,如果机器的当前系统时间仍处在“空闲状态起始时间”和“空闲状态终止时间”之间,则系统会启动一个新的自动维护任务。这个两个配置项改变后,需要重新启动TRS系统才有效。
42、最大排序 对检索结果进行排序的最大记录数,为零表示不限制。建议使用系统默认值。,TRS对象:TRS系统中的对象包括:用户组(GROUP);用户(USER);数据库(DATABASE);数据库字段(BASECOL);视图(VIEW);视图字段(VIEWCOL);词典(DICTIONARY)文件格式(FORMAT)所有这些对象都具有一致的命名规则:对象名可以是中文,英文或中英文的组合,最长为31个字符。对象名内英文字母的大小写无关。只能包括A-Z,a-z,0-9,_,或汉字。除数据格式外,对象名不能用TRS保留字(关键词)。属于同一个域内的对象不能重名。,小结(1),字段与索引:TRS数据库有以下
43、6种不同类型的字段:日期型字段(DATE)数值型字段(NUMBER)字符串型字段(CHAR)短语型字段(PHRASE)全文型字段(DOCUMENT)二进制型字段(BIT)索引是为实现快速检索的基础,在TRS系统中,作为检索入口的数据库字段必须建立一定的索引,否则该字段上的值不能被检索。我们可以对CHAR,DATE,NUMBER进行字段级检索,对PHRASE和DOCUMENT进行全文检索,但不能对BIT字段进行检索,BIT字段始终不建索引。,小结(2),权限机制:TRS系统的安全控制是通过权限管理来实现的。TRS系统的权限有四个级别,即:用户级权限(超级用户(SYSTEM);数据库管理员(DBA
44、);用户组管理员(GDA);资源用户(RESOURCE);登录用户(CONNECT);数据库级权限记录检索权(SELECT);数据更新权(UPDATE);数据索引权(INDEX);数据库结构修改权(ALTER);数据库删除权(DROP)。字段级权限和记录级权限(都只有检索权限)对TRS系统中的用户组操作、用户操作、数据库操作、数据库字段操作、视图操作、视图字段操作、词典操作和文件格式操作都必须有相应的权限才能进行。,小结(3),数据加载和检索:加载文件有两类:一类是数据文件;另一类是控制文件。数据文件是用来存放待加载的数据的文件。数据文件有两种形式,即数据记录文件和批处理文件。其中,加载DOC
45、UMENT字段和加载BIT字段有特殊的格式。控制文件用来控制数据的加载过程的配置文件。TRS的表达式分为统计表达式和检索表达式两种,TRS既支持在DATE、NUMBER和CHAR字段上通过键值进行数据库查询,同时也支持在PHRASE和DOCUMENT字段上用任意自由词、词串以及数值进行检索,此外还支持特殊键值的检索。,小结(4),用户手册使用说明,全文检索服务器用户手册 第一部分附录一:TRS 字符集 第一部分附录二:TRS 保留字 第五部分:TRS 错误信息管理员工具用户手册 附录A:检索表达式构造 附录B:数据库加载格式规范 附录C:常见问题回答,更新的内容,更新的内容:1、增加一种本地文件装库方式,以减少两次装库文件读、两次装库文件写和一次装库文件的传输,理论上对提高装库速度有帮助。2、改造“唯一值”的排重方法,使装库速度提高20%左右。3、更新Quick Sort算法,减小在“极端”数据集下排序性能变差的几率。(对原来性能极差的测试数据,新的算法性能提高)4、在无命中点检索模式下,PHRASE、DOCUMENT字段上的模糊匹配也采用“位图”运算进行合并,提高性能。5、取检索结果时,对于不存在的字段可根据选项设置决定是“忽略”还是“报错”。,谢谢!,本教材适合TRS Database Server V6.1版本,
链接地址:https://www.31ppt.com/p-6522138.html