基于规则的中文分词与地址匹配.ppt
《基于规则的中文分词与地址匹配.ppt》由会员分享,可在线阅读,更多相关《基于规则的中文分词与地址匹配.ppt(16页珍藏版)》请在三一办公上搜索。
1、基于规则的中文地址分词与匹配方法,计算机技术,研究背景及意义 随着地理信息系统(GIS)的不断发展和其在各行业的广泛应用,人们对信息共享的要求也越来越迫切。例如在城市管网、交通导航、工商管理、公共卫生、灾害管理等领域,地理信息系统作为信息共享的平台,其应用越来越广泛。城市各行业的数据库都保存着大量和地理位置有关的非空间数据。但是这些行业建设的 GIS 系统并没有足够的空间位置数据进行支撑,因为地址数据并不能够批量、准确地转化为空间化的信息。这些数据大多都没有空间位置坐标,无法对应到电子地图上,也就无法进行空间分析和管理决策。地址匹配技术正是这一问题的解决方法。地址匹配技术就是把自然语言描述的地
2、理位置信息转换成地理坐标的过程。通过地址匹配技术,可以把城市各个行业的非空间信息数据进行空间化,进而运用到 GIS 实际应用中,实现信息的集成与数据共享。GIS 例如,百度地图,引入一些地址组成的基本概念:(1)地址串:就是一般的地址,日常的通信地址。例如:青岛市黄岛区前湾港路 579 号。(2)地址要素:组成地址串的若干词组,如上面的地址就是由 4 个地址要素组成的,分别是“青岛市”、“黄岛区”、“前湾港路”和“579 号”,每个地址要素相对独立。(3)地址通名:顾名思义,就是地址要素中通用的那些字段。例如:地址要素“黄岛区”中“区”为地址通名,“前湾港路”中“路”为地址通名。(4)地址专名
3、:例如:“黄岛区”中“黄岛”为地址专名。地址要素中去掉地址通名后剩余的部分就称为地址专名。,Key technologies on Address matching,Standard address model,标准地址模型举例,中文分词方法:1.基于字典的分词方法(1)正向最大匹配法(2)逆向最大匹配法(3)最少切分词方法(4)逐词遍历法2.基于理解的分词方法3.基于统计的分词方法在人工智能的自然语言处理(NLP)领域也会用到中文分词技术。,正向最大匹配法:它的基本思想是:首先创建一个用于自动分词的中文词典,可以得知词典中的最长词条的汉字个数,假设个数为 n。然后,取待切分句子的前 n 个字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 规则 中文 分词 地址 匹配
链接地址:https://www.31ppt.com/p-5254313.html