[毕业设计精品]分词技术在电子商务信息查询中的应用.doc
《[毕业设计精品]分词技术在电子商务信息查询中的应用.doc》由会员分享,可在线阅读,更多相关《[毕业设计精品]分词技术在电子商务信息查询中的应用.doc(28页珍藏版)》请在三一办公上搜索。
1、分词技术在电子商务信息查询中的应用摘 要通过近几年的发展,电子商务已经离我们不再遥远。电子商务上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,如果是查询中分词信息多,那么结果就会令人不满意。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,那么“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。 所以中文分词的应用会改善
2、我们的生活,使人们真正体会到科技为我所用。本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,此外,讨论了中文分词算法,结合电子商务行业的特点对分词算法进行描述,和阐述了电子商务查询中分词技术的应用并进行了分析。关键词:搜索引擎 中文分词 电子商务Segmentation information in e-commerce application a queryAbstractThrough years of development, electronic commerce is no longer far away fro
3、m us. Information on e-commerce is also rapidly expanding, in this mass of information, the kinds of information mixed together, in order to take advantage of these information resources is necessary to organize them, if the person do the job, has not possible, and if the face of Chinese word segmen
4、tation information is not used, then the order of the results to be too rough, which led to resources not available, check if it is carved the word information and more, then the result will be unsatisfactory. Through the introduction of word segmentation, we can make the collation of the machine on
5、 the mass of information more accurate and reasonable, then, are two different manufacturing and service industries in the Kimono will not be treated as a word processing, then search kimono Of course it will not be retrieved, making search results more accurate and efficie will be greatly enhanced.
6、 Therefore, the application of Chinese word segmentation to improve our lives, so people really understand science and technology for our use. In this paper, the concept of e-commerce search engine, through the analysis of general search engine technology, combined with e-commerce industry, the dema
7、nd for search engine part to the need for improvement, in addition, discussed the Chinese word segmentation algorithm and the characteristics of e-commerce segmentation algorithm is described, and elaborated carved the word of e-commerce echnology application query and analyzed.Keywords: search engi
8、ne Chinese word e-commerce目录前言6第章电子商务综述81.1电子商务的定义81.2电子商务的产生的背景91.3电子商务发展现状9第章探究分词技术122.1 分词技术简述122.1.1 基于字符串匹配的分词方法122.1.2基于统计的分词方法132.1.3基于理解的分词方法132.2分词技术及错误流程142.2.1 歧义识别和新词识别142.2.2分词技术错误提示流程152.3分词技术的最新发展17第章探究搜索引擎183.1 搜索引擎183.1.1 搜索引擎的理解183.1.2 我国搜索引擎的背景183.1.3搜索引擎的现状193.2 搜索引擎的实现原理203.2.1
9、从互联网上抓取网页203.2.2建立索引数据库213.2.3在索引数据库中搜索213.2.4对搜索结果进行处理排序213.3 电子商务搜索引擎的形式23第章分词技术案例分析244.1 百度分词技术分析244.1.1 最大分词词长244.1.2分词算法254.2 分析语句“红色摇滚很搞笑”26结论27参考文献28致谢29前言随着互联网的迅速发展,电子商务让消费方式变得更为快捷,更多的人涌向网上商店,网络市场前景巨大,拥有更为广阔的发展空间。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一
10、特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一
11、个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率,本文就是深入研究在电子商务查询中分词技术的应用来提高搜索查询的速度,首先在本文的第一章大体概述了电子商务的定义、电子商务的背景、以及电子商务的发展前景。在第二章中阐述了在电子商务查询中应用广泛的分词技术,在这一章本文首先阐述了分词技术的概念,然后介绍了分词技术的分类,在最后两章中介绍了搜索引擎的概念和用一些具体例子介绍了分词技术的具体应用。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘
12、神队不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想,因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。第章 电子商务综述1.1 电子商务的定义电子商务(Electronic Commerce)的定义:以电子及电子技术为手段,以商务为核心,把原来传统的销售、购物渠道移到互联网上来,打破国家与地区有形无形的壁垒,使生产企业达到全球化,网络化,无形化,个性化、一体化。通俗的讲电子商务是指利用简单、快捷、低成本的电子通信方式,买卖双方不谋面地进行的各种商业和贸易活动。电子商务是运用数字信息技术,对
13、企业的各项活动进行持续优化的过程。电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business),或企业对消费者(Business-to-Consumer)两种。另外还有消费者对消费者(Consumer-to-Consumer)这种大步增长的模式。随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消费方式已渐流行,市场份额也在迅速增长,电子商务网站也层出不穷。电子商务最常见之安全机制有SSL(安全套接层协议)及SET(安全电子交易协议)两种。电子商务是一个不断发展的概念,电子商务的先驱IBM公司于1996年提出了 Electron
14、ic Commerce(E-Commerce)的概念,到了1997年,该公司又提出了Electronic Business(E-Business)的概念。但我国在引进这些概念的时候都翻译成电子商务,很多人对这两者的概念产生了混淆。事实上这两个概念及内容是有区别的,E-Commerce应翻译成电子商业,有人将E-Commerce称为狭义的电子商务。将E-Business称为广义的电子商务。E-Commerce是指实现整个贸易过程中各阶段贸易活动的电子化。E-Business是利用网络实现所有商务活动业务流程的电子化。E-Commerce集中于电子交易,强调企业与外部的交易与合作,而E-Busin
15、ess则把涵盖范围扩大了很多。广义上指使用各种电子工具从事商务或活动。狭义上指利用Internet从事商务或活动。1.2 电子商务的产生的背景中国电子商务在20世纪90年代开始出现,这个时候电子商务只是一种概念,根源在于中国互联网的接入以及世界一些知名企业的影响!在这一阶段中国出现了一些比较典型的电子商务企业,如8848,易趣等!随着人们对电子商务的逐渐认识,在新的一世纪里产生了若干电子商务企业,涉及的范围从B2B向B2C以及C2C等多方面发展!随着网络产业向纵深层次的不断发展,更多的人参与到网络产业中,往往是利益的驱使使得人们行为过于盲目,从03年开始中国互联网进入低潮,一部分人放弃互联网,
16、一部分企业不得不采取一定的收索策略甚至转变业务!这些使得他们不得不从新定位和思考如何发展新一代的电子商务!那么可以说现阶段中国电子商务真正得到发展的第一步应当从这个时候开始!从大的范围上讲,人们对电子商务的认识更加深刻!十年前,人们对电子商务十分陌生,而现在几乎很少人不知道电子商务的!中国出现的一些极具代表性的电子商务企业的影响,一个行业的发展往往是这个行业的巨头所引起的技术的突破,物流的发展,人才的兴起改变了以前电子商务发展的一些瓶颈!一些中国大的电子商务平台改变了中国商务环境!相关互联网产业的兴起也带动了电子商务的发展,如典型的搜索业务、视频业务、SNS、IM等兴起。1.3 电子商务发展现
17、状近年来,在全球经济保持平稳增长和互联网宽带技术迅速普及的背景下,世界主要国家和地区的电子商务市场保持了高速增长态势。以美国为首的发达国家,仍然是世界电子商务的主力军;而中国等发展中国家电子商务异军突起,正成为国际电子商务市场的重要力量。2008年,中国电子商务市场前期延续了2007年电子商务持续高速增值的势头,后期则受全球金融危机和发展瓶颈影响,交易额增长放缓。但总体来说,中国电子商务市场的发展仍在稳步前行。2008年中国电子商务市场交易额达到24000亿元,同比增值达到41.2%,其中B2B市场仍是总交易额的构成主体,C2C基本维持现状,B2C将提速发展。2010年中国电子商务市场除在扩大
18、资金来源、支撑体系建设方面有所成就外,不可避免的需要面临全球金融危机所带来的影响,但随着中国电子商务与行业发展结合的更广、更深,充分利用电子商务B2C手段已经成为中国行业企业在度过经济寒冬中的重要选择。因此,2008年投资机构对中国电子商务市场的关注度不降反升,其中B2C行业无论在投资案例数量还是在投资金额上都呈快速增值趋势。2010年政府加强了在电子商务领域的引导性投资,用以改善中国电子商务市场的投资环境,政府通过将投资收益返还社会投资人支持社会投资回购政府所持股份等政策,将大量资金引入电子商务的发展。随着国内Internet使用人数的增加,利用Internet进行网络购物并以银行卡付款的消
19、费方式已渐流行,市场份额也在快速增长,电子商务逐渐成为业界热议的一个焦点话题,相关的电子商务网站也层出不穷。2011年中国电子商务市场可谓机遇和挑战并存,而政府和企业的通力合作是抓住机遇并赢得挑战的基础。在此基础上,中国电子商务市场才有可能逐步向发达国家电子商务水平接近。眼看网络购物市场不断扩大,一些搜索网站瞄准了B2C市场。同时,越来越多的传统经销商也开始切入B2C电子商务领域拓展其在线零售业务。苏宁、国美、迪信通等全国性连锁以及广州的广州百货等也都开辟了自己的B2C网站,越来越多的B2C厂商已做好进入垂直细分市场的准备。对新渠道的需求催生了B2C市场在被C2C市场超越之后,开始了新一轮的急
20、速上升。B2C是面对金融危机却依然能蓬勃发展的国内少数行业之一,不过即使没有2008年的这场波及全球的金融危机,电子商务B2C行业在2010年仍然会卯足劲儿大踏步前进,金融危机的影响只是更加加速了中国B2C行业的发展。未来几年,C2C增速将趋缓,而B2C市场规模增速将赶超C2C。预计,B2C市场规模从2011年开始快速增长,市场份额将逐步上升,有望成为电子商务行业新的增长点。预计未来三年中国B2C市场复合增长率可达到41%,以后中国电子商务B2C市场交易额有望达到千亿元。我国互联网电子商务交易规模图1.1第章 探究分词技术2.1 分词技术简述语言本身也是在不停的进化和发展的,新的词语层出不穷,
21、一些老的词语渐渐被弃用。作为中文分词的基础-词库,其新词补充和老词删除就是非常重要的工作。“超级女声”、“超女”、“李宇春”、“八荣八耻”、“非典”,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要来源于新闻和网络BBS论坛,主要机制是依靠统计程序,统计上升速度最高的词。另外作为搜索引擎公司,对众多用户的搜索词进行“用户行为”分析,也能提高其“新词补充”效果。2.1.1 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计精品 毕业设计 精品 分词 技术 电子商务 信息 查询 中的 应用

链接地址:https://www.31ppt.com/p-2397900.html