《文字信息处理》PPT课件.ppt
《《文字信息处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《文字信息处理》PPT课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、第五章图像数字化原理,引言第一节图像的数字化第二节数字图像数据与其像素、色彩的关系第三节图像分辨率第四节图像存储格式第五节文字信息处理,第五节文字信息处理,第五章图像数字化原理,文字信息处理(文字排版):依据文字原稿及对印刷品的要求,确定适当的字体、字号、行距、字距、版式等,并利用文字信息处理系统对文字原稿进行版面设计和排版过程。,第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字代码。,在汉字信息处理系统中,对于不同部位,存在着多种不同的编码方式,形成汉字代码体系。,输入码机内码字形码地址码,第五节文字信息处理,第
2、五章图像数字化原理,一、汉字代码体系,1、汉字输入码汉字输入码是为用户由计算机外部输入汉字而编制的汉字编码,又称为汉字外部码,简称外码。使用较多的有以下4类:(1)顺序码:如区位码、电报码等。(2)音码:如拼音码、自然码等。(3)形码:如五笔字型、大众码等。(4)音形码:如双拼码等。,第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,2、汉字机内码汉字机内码是汉字处理系统内部存储、处理汉字而使用的编码,简称内码。,汉字机内码由汉字国际标准交换码(国标码)变换而来汉字交换码是汉字信息处理系统之间或通信系统之间传输信息时,对每个汉字所规定的统一编码。,西文字符:7位二进制码,128个字符
3、,用一个字节表示一个西文字符。ASC码:美国标准信息交换码(American Standard Code for Information Interchange),第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,国际标准交换码,ASC码表,从表中可知:大写英文字母的代码是41(十六进制)或1000001(二进制);小写英文字母的代码是61或1100001;分号“;”的代码是3或0111011;删除(DEL)的代码是7F或1111111;空格(SP,即Space)的代码是20或0100000。,国际标准交换码,西文字符:,第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,国
4、际标准交换码,中文:(1)国标码:1981年,我国颁布了中华人民共和国国家标准信息交换用汉字编码字符集(基本集)(GB2312-80),6763个汉字和682个非汉字字符,共计7445个。到2000年,GB18030-2000,都是在基本集上的扩充。都向上兼容。,国际码:区位码的区号和位号各加32。,每个汉字的区位码和国标码是唯一的。计算机中,中、西文是混合处理的,为了识别中、西文,把汉字用双字节表示,高位置“”,成为汉字16位的机内码,西文用单字节表示,高位置“0”,成为西文8位的机内码。,(2)区位码 将GB2312-80全部字符集组成一个9494的方阵,每一行称为一个“区”,编号从019
5、4;每一列称为一个“位”,编号也是从01 94。这样,每一个字符便具有一个区码和一个位码,将区码置前,位码置后,组合在一起就成为区位码。,国际标准交换码,中文:,例:汉字“大”,区位码“2083”,二进制码为:00101001010011各加32变为国标码:“52115”,即为:01101001110011高位置“1”,成机内码:1011010011110011,第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,2、汉字机内码,汉字字形码是表示汉字字形信息的编码。,第五节文字信息处理,第五章图像数字化原理,一、汉字代码体系,3、汉字字形码,第五章图像数字化原理,一、汉字代码体系,3、
6、汉字字形码,第五节文字信息处理,(1)、点阵字形应用于显示、低分辨率打印输出(针式)1616,2424,3232,6464,4848,128128等等。缺点:数据量大,文字放大有锯齿边,变形困难。1616点阵需多少字节存储一个字形?,1616点阵,第五章图像数字化原理,一、汉字代码体系,3、汉字字形码,第五节文字信息处理,(2)矢量字形矢量轮廓描述法用矢量线段来描述字形的外部轮廓,记录的是矢量坐标对,数据压缩量大。优点:数据量小,字形较美观,字形存在各种变形缺点:大字输出时,直线段与直线段过渡不平滑,“刀割”现象。,矢量字形,第五章图像数字化原理,一、汉字代码体系,3、汉字字形码,第五节文字信
7、息处理,(3)曲线字形曲线轮廓描述法采用数学上二次、三次曲线来描述字形的外部轮廓。,三次Bezier曲线,二次B样条曲线等。,平面曲线的一般表示:(1)y=f(x)(2)参数方程:P(t)=x(t)y(t),3、汉字字形码,(3)曲线字形曲线轮廓描述法,t a,b,例:圆方程:,3、汉字字形码,(3)曲线字形曲线轮廓描述法,0t2,0t1,0t1,3、汉字字形码,(3)曲线字形曲线轮廓描述法,通常,多项式表示的函数曲线易于计算和处理,表示最简单,理论和应用最成熟,也是计算机图形学的基础,。,0t1,函数描述曲线有两种类型:(1)要求函数描述的曲线经过已知点,获得拟合函数后,通过插值计算后得到未
8、知点上的数值。(2)已知函数形式,由一些控制点调整曲线形状,适合于图形、字形设计。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,空间给定n+1个点P0、P1、P2Pn,对这些点的平滑逼近曲线,即Bezier曲线。(1962年,法国雷诺汽车公司,工程师),1、Bezier曲线的函数表达式:,:伯恩斯坦(Bernstein)基函数,Pi:P(xi,yi),为各点的位置矢量n:Bezier曲线的阶数,也是逼近线的数量。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,2、Bernstein多项式的定义,3、汉字字形码,(3)曲线字形曲线
9、轮廓描述法,一、贝塞尔(Bezier)曲线,3、二次Bezier曲线,n=2,抛物线,po,p1,p2,是构成二次Bezier曲线的折线顶点,也称Bezier曲线的控制点.,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,4、三次Bezier曲线,n=3,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,端点性质,Po,Pn是曲线的两个端点,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,端点的切线性质,P0的切线经过P1,Pn的切线过Pn-1
10、,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,凸包性,点集的凸包:包含这些点的最小凸集Bezier曲线位于其控制顶点的凸包之内,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,交互性,只需通过改变控制点的位置,就可对曲线形状进行精确的控制,在计算机图形处理软件中可方便地来实现交互性。,全局性,改变任何一个控制点的位置,就可改变整个曲线形状,不具备局部控制能力。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点
11、,曲线连接的连续性,一段三次Bezier曲线终点和另一段三次Bezier曲线的起点重合,可达到零阶几何连续。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,曲线连接的连续性,两段三次Bezier曲线在某点相连,保证过渡平滑,是一阶几何连续。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,5、三次Bezier曲线的特点,曲线连接的连续性,即:P3-P2=k(Q1-Q0),要保证过渡平滑,两曲线过P3,Q0点的一阶导数相等。,3、汉字字形码,(3)曲线字形曲线轮廓描述法,一、贝塞尔(Bezier)曲线,
12、6、Bezier曲线的缺点,缺点:所生成的曲线与特征多边形的外形相距较远局部控制能力弱,改变任何一个控制点的位置,就可改变整个曲线形状控制顶点数增多时,生成曲线的阶数也增高控制顶点数较多时,多边形对曲线的控制能力减弱曲线拼接需要附加条件,不太灵活,用三次Bezier曲线描述的文字曲线轮廓,3、汉字字形码,(3)曲线字形曲线轮廓描述法,二、B样条曲线,B样条曲线采用了不同于Bezier曲线的基函数,具有Bezier曲线的优点,克服了Bezier曲线的缺点。,优于Bezier曲线之处:与控制多边形的外形更接近局部修改能力,局部修改不会改变整体形状控制点数不再与曲线的次数相关,计算简便。,3、汉字字
13、形码,()数字式字库技术,基本要素:字形轮廓描述字符编码映射(地址码)提示信息(Hint)其他信息:名称、版权、版本等。,Postscript字库:三次Bezier曲线TrueType字库:二次B样条曲线,第五章图像数字化原理,一、汉字代码体系,4、汉字地址码,第五节文字信息处理,汉字地址码,汉字字形码,汉字字库,第五章图像数字化原理,一、汉字代码体系,5、汉字代码的转换,第五节文字信息处理,在文字信息处理过程中,在不同的阶段有不同的编码,需要汉字代码转换。,汉字代码的转换,第五章图像数字化原理,二、五笔字形汉字编码方案,人们对汉字编码输入方案的要求:易学性易于盲打平均码长短,第五节文字信息处
14、理,五笔字形的平均码长:2.6码,1、五笔字形笔画代号,第五节文字信息处理,二、五笔字形汉字编码方案,笔画:书写汉字时,一次不间断地连续写成的一个线段,叫做汉字的笔画。汉字的笔画,可分为以下五种,命以代号1、2、3、4、5。1、横:一(“现”字的“王”字旁最下一笔是“提”笔,所以提笔属于横)。2、竖:丨(旧体的“木”字竖笔带钩,所以竖左钩属于竖)。3、撇:丿 4、捺:丶(由“村”字的“木”字旁可知,点笔就属于捺)。5、折:乙(包括一切带拐弯的笔划,都归为折类),第五节文字信息处理,二、五笔字形汉字编码方案,2、五笔字形字根,字根:由若干笔画交叉连接而形成相对不变的结构。,汉字由字根组成,字根由
15、笔画构成。笔画、字根、整字是汉字结构的三个层次。,五笔字形的字根没有公认的标准和数量,汉字中的边旁部首,有的是字根,有的可组成多个字根,有的是单字作为字根(羽,竹),五笔字形方案中,把组字能力强,在日常汉语文字中出现频率高的结构,作为基本字根。共计130多个字根。,第五节文字信息处理,二、五笔字形汉字编码方案,、五笔字形字根表,五笔字型的字根键盘 五笔字型根据字根的笔画(横、竖、撇、捺、折五种)、字根组字的频率,以及英文字母键的排列位置,将130个基本字根分为五类,分别对应键盘上的五个区(区号),每个区又分为五个位(位号),区号(十位)加上位号(个位)即为键盘的区位码,分别对应于字母键AY。这
16、样共得到:1115、2125、3135、4145、5155共25个键位。,第五节文字信息处理,二、五笔字形汉字编码方案,、五笔字形字根表,第五节文字信息处理,二、五笔字形汉字编码方案,、五笔字形字根表,第五节文字信息处理,二、五笔字形汉字编码方案,、五笔字形字根表,成字字根:基本字根中有些字根本身就是一个完整的汉字,例如:日月人火手等,这种字根在五笔字型里叫做成字字根。,第五节文字信息处理,二、五笔字形汉字编码方案,、五笔字形字根表,键名字根:在同一个键位上的几个基本字根中,选择一个具有代表性的字根,称为键名字根。五笔编码键盘图中各个键位左上角的字根就是键名字根。,第五节文字信息处理,二、五笔
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文字信息处理 文字 信息处理 PPT 课件

链接地址:https://www.31ppt.com/p-5520460.html