维文处理系统和维文校对.ppt
维文处理系统和维文校对,新疆大学信息科学与工程学院 艾尔肯E-mail:,题目:维文校对系统研究开发,国家自然科学基金赞助项目。研究费10万。研究期限是2000年1月到2003年1月。已经发表论文:维文Unicode编码研究“2000国际多语言文字处理会议”目前的研究情况:已经有了一个演示系统 以后的工作:完善,实际测试等等,介绍内容,维文处理的特殊性维文系统核心技术维文编码维文字库维文输入方向维文自动选型和换行维文处理系统 Uighur Office 2000维文文字校对的特殊性基于Office 2000/XP的维文校对系统总结,关于新疆,新疆居住着47个民族,主要的有13的民族。在长期的历史发展中,他们在各方面形成了本民族的风俗习惯。其中维吾尔,哈萨克,回,蒙,柯尔克孜,锡伯,塔塔尔,塔吉克,达斡尔,满,俄罗斯等12个少数民族的风俗习惯,都具有鲜明特色。信仰伊斯兰教的民族群众,长期遵守古兰经对饮食的有关规定,故而形成了不吃猪肉,忌猪的风俗习惯。新疆兄弟民族人民特别重视水源的清洁卫生,因此,不许在水渠,水池和涝坝(农村水塘)中洗衣,洗脸,洗脚和洗澡,当然,更不允许在附近养猪。在待人接物上,亲友见面都要握手问候,或手放胸前鞠躬祝安。饭前,要洗手,洗完后切忌甩手上的水,要用毛巾擦干。在丧葬方面,新疆一般少数民族都实行土葬,在信仰伊斯兰教的民族中,丧葬是不用棺材的。人死后,先由宗教人士给死者擦澡,然后以白布裹尸,用一种专门制作的平木板把尸体抬到墓穴地入葬。出葬时,不许妇女和不信仰伊斯兰教的人到墓地上,人死后的第七天,第40天和一周年,家属要举行悼念活动,请阿訇念经,请亲友吃饭,此项仪式叫“乃孜尔”。信仰伊斯兰教的民族还有自己的两大节日,即肉孜节和古尔邦节,过这两个民族节日,这些民族群众都要穿上盛装,家家户户准备丰富的食品,有的家庭还要宰羊。一般说法,肉孜节是回族的大年。维吾尔等其他信仰伊斯兰教的民族视古尔邦节为重要节。过节时,互相登门拜谒,表示祝贺。新疆各少数民族都有自己独特的衣饰和其他生活习惯,维吾尔,哈萨克妇女爱着彩色绸裙,戴艳丽或洁白的头巾,喜爱耳环,项链,手镯,戒指等装饰物。男性爱着西装,老人穿袷袢。,http:/,维文处理的特殊性,!-.,维文是字母文字,有32个字母。每个字母有词前,中间,词尾和单独等几种形式。词和词是自然分开的。各个字符的宽度不同。维文的输入是从右到左、从上到下的特殊循序,并且字符和字符之间存在不同的连接关系。一般计算机系统和软件上输入、处理比较麻烦。所以必须要开发一个合适的处理系统,才能解决智能处理问题。,维文系统核心技术,维文编码维文字库维文输入方向维文自动选型和换行其他维文处理技术网站http:/,编码,编码是将个别的文体字符配对到指定数值的方法过程。这能让您的电脑理解识别您所输入的语文文体。举例说明:中文输入有GB和Big5 两种编码系统,日文输入有JIS、SJIS及EUC编码系统,而韩文输入则有KSC5601编码系统。常用编码:GB2312-80,GB18030-2000 Unicode 2.1,Unicode 3.0/3.1等等,GB2312-80,Unicode编码http:/www.uinicode.org,简单性 Unicode代码是等长的(16b),每两个字节表示一个字符;完整性 Unicode要善盖文本中使用的所有字符;单义性 每个代码明确地表示一个字符。正确性 在进行与已有字符编码标准间的转换时,不应该丢失任何原文数据。保真性,阿拉伯文、维文编码,维文TrueType字库,我们以Font Creator Program为例说明Unicode TrueType字库的制作,如下图:,维文处理系统 Uighur Office 2000,Uighur Office 2000是针对Windows 98/ME开发的维文处理系统,使用时需要Office 2000(Word 200)。使用本系统维文处理相当于英文、中文一样,不需要特殊的硬件或其他软件的支持。,维文校对对象的研究,手写原稿 文理科原稿个一本(123678词)计算机基础(维文版、566页)现代维语(维文版、549页)被输入到计算机的原稿(13423词)理科方面的研究论文 12篇 文科方面的研究论文 8篇新疆日报,新疆大学学报,科学与力(各两期),维文校对系统,常见错误类型 经过大量分析和研究,民文书本中经常出现的错误大致分为两种,即录入错误和语法错误。大约统计了只通过一次校对的6250000个维文词,其中出现的总错误数为53125,平均出错率为8。5%(理科书中约为2%-4%,文科书中约为9%-11%)。这些错误中92%以上是录入错误,其余7%-8%为语法错误。总之细分这些错误,可分为如下几种:一、录入错误丢字符,多字符,拼写错误(外来语、专业名词中常见)重键引起的错误同音或同形词引起的错误标点符号、数字或括号不匹配二、语法错误(1)构词错误:民文中常用一些后缀和连接字符(一般为一个或几个字节)来构成新词时,若搭配不当,就会产生严重的语法错误。(2)句法错误词性搭配错误,关联词搭配错误,句型错误,民文校对的优势及难点,优势:(1)词和词之间是用空格来分开的,容易分别和查找。(2)字母只有32个,虽有单、前、中、后四种变形,但数量有限且有规律,已有自动选型可以解决这个问题。(3)句子成分在句子中的语法位置比较稳定,易于发现语法错误。难点:(1)重键问题容易导致录入错误。比如:G()、F()、K()、L()、H()、J()。(2)外来语和专业名词比较多,易出现拼写错误。(3)手写体中的连笔法容易导致原稿性错误(4)时态比较复杂,构词连接字符较多,容易发生时态不匹配,词性不搭配等错误。有些逻辑性错误比较难于发现和校对。,黑马编校V2002全能版Word版校对界面,维文校对系统,维文校对系统待解决的问题,希望大家提供相关资料拼写校对库的结构和建立语法校对库的格式及其建立没有预料的其他问题,再见,http:/,