第10章字符及字符串处理.ppt
第10章 字符及字符串处理,本章将介绍Linux系统中的字符编码,以及如何利用C语言标准函数库中的函数处理字符、字符串和内存中的数据。字符处理库“ctype.h”、实用函数库“stdlib.h”和字符串处理库“string.h”内的函数是本章的重点,这些函数是开发文本编辑器、通信软件等程序的基础。另外,本章还将介绍如何使用简单的字符串处理算法设计文本加密程序,以加深读者对字符串处理函数工作原理的认识。,10.1 字符编码,最早的字符编码是布莱叶发明的盲文体系,他用凸凹不平的点所组成的阵列来表示字符,使盲人能够阅读和书写。计算机受限于逻辑电路,并不能直接识别和表示字符,早期的计算机科学家受到布莱叶盲文的启示,使用有规则的二进制序列代表字符,于是形成了计算机字符编码体系。,10.1.1 ASCII编码,ASCII编码的全称是美国信息交换标准编码,是当前最流行的计算机字符编码系统之一。ASCII编码体系是7位,用十六进制数表示是0 x000 xFF,共有128个元素。其中,前32个元素和最后一个元素是用于字符处理时的控制指令。ASCII编码中大写字母和小写字母的差值是20h,所以将大写字母转换为小写字母,或将小写字母转换为大写字母非常方便。,10.1.2 Unicode编码,Unicode编码是ASCII码的升级体系,这种编码使用2个、4个或更多字节的存储空间,已建立了10万字符的全球通用字符集。Linux系统中以UTF-8标准的Unicode编码作为系统的内码,每个字符的存储空间为2字节,但同时也能兼容ASCII码的单字节体系。在Linux系统上开发程序时,应考虑双字节编码的问题,尽量不使用字符型变量接受系统传入的字符型数据,以及使字符型数组的长度保持为偶数。,10.2 字符处理库,字符处理库“ctype.h”包含一系列对ASCII编码字符数据进行测试和处理的函数。每个函数接受一个整型数据作为参数,或者用文件结束符EOF作为参数。ASCII编码字符通常是1字节的整数,因此字符通常作为整数来处理。,10.3 字符串转换函数,在设计程序时,有时需要将字符串所代表的数字转换为其他类型的数值,或者将其他类型的数值转换为用字符串表示的数据。实用函数库“stdlib.h”提供了这一类函数,如表10.2所示。,10.4 字符串处理函数,字符串处理库“string.h”为处理字符串数据、比较字符串、在字符串中查找字符和其他字符串、标记字符串(将字符串划分成逻辑段)和确定字符串长度提供了常用的函数,见表10.3所示。,10.5 字符串比较函数,字符存储形式为正整数,所以可比较两个字符之间的大小。字符串比较是将两个字符串位置相对应的字符逐个比对,比较两个字符串之间的大小。字符串比较函数对判断两个字符串中内容是否相同和对字符串排序非常有用。常用的字符串比较函数见表10.4。,10.6 字符串查找函数,字符串处理库提供了在字符串中找到相同的字符或子字符串的函数,以及将字符串分组的函数。常用的字符串查找函数见表10.5所示。,10.7 字符串内存函数,字符串处理库提供了内存函数,这些函数将内存块作为字符数组处理,能复制、比较和查找内存块。表10.6列出了字符串处理库中的内存函数。,10.8 字符串其他函数,字符串处理库其余的两个函数是sterror()和strlen(),sterror()函数能从编译器获得错误代码的文本描述,使程序的错误能够获得直观的解答。strlen()函数的作用是返回一个字符串的长度,该长度是从字符串首地址到字符串结束符之间的字符距离,见表10.7所示。,10.9 媒体播放器实现播放列表检索功能,本章实例将对其进行扩展,第一个任务是对播放列表进行排序,要求能比较整个字符串。第二个任务是在播放列表中进行查找,找到与查找条件匹配的项目。,10.9.1 对播放列表中整个字符串进行排序,本章学习了字符串比较函数,该函数能够依次比较两个字符串间所有的字母,真正做到按名称排序的要求。使用该函数只需对第8章实例部分做很小的修改,代码中使用了strcmp()函数比较两个字符串的大小,如果前面一个字符串大于后面的字符串,那么就交换两个指针中的地址。,10.9.2 在播放列表中查找字符串,在播放列表中查找字符串有两种模式,一种是完全匹配,另一种是模糊查找。前者可使用现有的字符串处理库中的函数来实现,而后者必须定义新的函数来完成。1在播放列表中查找字符串2模糊查找实现方法,10.10 小结,本章介绍了字符串处理的各种函数和内存处理函数,读者通过本章的学习应对计算机的编码知识具备有较深刻的理解,同时也掌握了处理字符串数据的能力。借助指针和内存处理函数,C语言可直接处理内存中的数据,因此C语言常被用来设计各种操作系统软件和底层的网络通信软件。在利用这些函数设计程序时,读者可借助GDB等编译器查看内存中数据的变化,这样既能避免程序出现严重的段错误,又能更清晰地了解各种字符串处理函数和内存处理函数的工作原理。,