中文信息处理与汉语研究.ppt
《中文信息处理与汉语研究.ppt》由会员分享,可在线阅读,更多相关《中文信息处理与汉语研究.ppt(24页珍藏版)》请在三一办公上搜索。
1、1,中文信息处理与汉语研究 现状和发展,詹卫东北京大学中文系北京大学汉语语言学研究中心北京,100871http:/,全国语言文字信息化工作会议 湖南 长沙 2003.10.5-10.6,2,提 纲,中文信息处理研究的菜篮子格局中文信息处理的现状和发展趋势语言知识资源的建设面向中文信息处理的汉语研究,3,一 中文信息处理研究的格局,信息的两个层次:符号层 中文/汉语/汉字内容层 符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等),(信号 vs.信息),4,符号层的信息处理,拼音文字:小字符集 比较容易非拼音文
2、字:大字符集 难度很大,汉字是一个大字符集说文解字(东汉):9353字玉篇(南朝)收录16,917字广韵(宋代)收字26,194字字汇(明朝)收录33,197字康熙字典(清朝)收录47,043字汉语大字典(1992年)5.6万中华字海(1994年)8.6万,拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号,5,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识
3、别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,6,内容层的信息处理,形态丰富的语言(inflecting language):处理难形态不丰富的语言(analytic language):处理更难,7,内容层的信息处理,机器翻译全过程,8,内容层处理对符号层处理的反作用,9,内容层处理对符号层处理的反作用,10,内容层处理对符号层处理的反作用,11,内容层处理对符号层处理的反作用,12,二 中文信息处理的现状和发展趋势,现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 汉语 研究

链接地址:https://www.31ppt.com/p-5909703.html