软件测试与改错-掌握有效测试的方法与技术课件.ppt
软件测试与改错 掌握有效测试的方法与技术王晓辉maconi126.co,华北电力大学计算机系,目录,1.测试的常识与道理 2.测试的分类与比较3.测试人员的组织4.企业的测试策略5.测试规范6.软件产品的主要测试内容及技术7.改错的方法8.小结,世上不存在没有缺陷的软件,1.测试的常识与道理,1.1 你真的懂测试吗 编程大师说:没有错误的程序世间难求。(编程之道)你在学校里学过测试吗?(读到博士可能也不懂测试)你所在的企业重视测试吗?(小公司程序员的技能更加全面)临时抱佛脚行吗?你以为有文档模板就会测试了吗?如果不懂得有效地进行测试,你不仅得不到功劳,也没人欣赏你的苦劳,你拥有最多的将只是疲劳。职业软件工程师应当掌握需求开发、系统设计、编程、测试、维护 所有技能。,1.2 测试的目的是什么测试的目的是为了发现尽可能多的缺陷,不是为了说明软件中没有缺陷。推论:成功的测试在于发现了迄今尚未发现的缺陷。所以测试人员的职责是设计这样的测试用例,它能有效地揭示潜伏在软件里的缺陷。千万不要将“测试”与“演示”混为一谈。例如科研鉴定会。如果产品通过了严格的测试,大家不要不吭气,应当好好地宣传一把。,1.测试的常识与道理,1.3 一些常识和经验之谈测试能提高软件的质量,但是提高质量不能依赖测试。测试只能证明缺陷存在,不能证明缺陷不存在。“彻底地测试”难以成为现实,要考虑时间、费用等限制,不允许无休止地测试。我们应当祈祷:软件的缺陷在产品被淘汰之前一直没有机会发作。测试的主要困难是不知道如何进行有效地测试,也不知道什么时候可以放心地结束测试。每个开发人员应当测试自己的程序(份内之事),但是不能作为该程序已经通过测试的依据(所以项目需要独立测试人员)。80-20原则:80的缺陷聚集在20的模块中,经常出错的模块改错后还会经常出错测试应当循序渐进,不要企图一次性干完,注意“欲速则不达”。,2.测试的分类与比较,2.1 测试方式白盒测试:关心软件内部设计和程序实现,主要测试依据是设计文档黑盒测试:不关心软件内部,只关心输入输出,主要测试依据是需求文档2.2 测试阶段单元测试、集成测试、系统测试、验收测试。是“从小到大”、“由内至外”、“循序渐进”的测试过程,体现了“分而治之”的思想。单元测试的粒度最小,一般由开发小组采用白盒方式来测试,主要测试单元是否符合“设计”。集成测试界于单元测试和系统测试之间,起到“桥梁作用”,一般由开发小组采用白盒加黑盒的方式来测试,既要验证“设计”又要验证“需求”。系统测试的粒度最大,一般由独立测试小组采用黑盒方式来测试,主要测试系统是否符合“需求规格说明书”。验收测试与系统测试非常相似,主要区别是测试人员不同,验收测试由用户执行。,2.测试的分类与比较,2.3 开发与测试的 V 型关系如果软件开发过程采用严格的瀑布模型,那么开发与测试有“V”型的对应关系。,需求开发,高层设计,详细设计,编程,单元测试,集成测试,系统测试,验收测试,2.测试的分类与比较,2.4 测试内容接口与路径测试。功能测试、健壮性测试、性能测试、用户界面测试、安全性测试、压力测试、可靠性测试、安装/反安装测试,2.测试的分类与比较,2.5 问题问题1:有了“黑盒”测试为什么还要“白盒”测试?黑盒测试只能观察软件的外部表现,即使软件的输入输出都是正确的,却并不能说明软件就是正确的。因为程序有可能用错误的运算方式得出正确的结果,例如“负负得正,错错得对”,只有白盒测试才能发现真正的原因。(举一个学生作业的例子)白盒测试能发现程序里的隐患,象内存泄漏、误差累计问题。在这方面,黑盒测试存在严重的不足。问题2:由于单元测试要写测试驱动程序,非常麻烦,能否等到整个系统全部开发完后,再集中精力进行一次性地单元测试呢?如果这样做,在开发过程中,缺陷会越积越多并且分布得更广、隐藏得更深,反而导致测试与改错的代价大大增加。最糟糕的是无法估计测试与改错的工作量,使进度失去控制。因此为图眼前省事而省略单元测试或者“偷工减料”,是“得不偿失”的做法。,问题3:如果每个单元都通过了测试,把它们集成一起难道会有什么不妥吗?集成测试是否多此一举?要把N个单元集成一起肯定靠接口耦合,这时可能会产生在单元测试中无法发现的问题。例如:数据通过不同的接口时可能出错;几个函数关联在一起时可能达不到预期的功能;在某个单元里可以接受的误差可能在集成后被扩大到无法接受的程度。所以集成测试是必要的,不是多此一举。问题4:在集成测试的时候,已经对一些子系统进行了功能测试、性能测试等等,那么在系统测试时能否跳过相同内容的测试?不能!因为集成测试是在仿真环境中开展的,那不是真正的目标系统。再者,单元测试和集成测试通常由开发小组执行。根据测试心理学的分析,开发人员测试自己的工作成果虽然是必要的,但不能作为成果已经通过测试的依据。,2.测试的分类与比较,2.5 问题问题5:既然系统测试与验收测试的内容几乎是相同的,为什么还要验收测试?首先是“信任”问题。对于合同项目而言,如果测试小组是开发方的人员,客户怎么能够轻易相信“别人”呢?所以当项目进行系统测试之后,客户再进行验收测试是情理之中的事。否则,那是客户失职。不论是合同项目还是非合同项目,软件的最终用户各色各样(如受教育程度不同、使用习惯不同等等)。测试小组至多能够模仿小部分用户的行为,但并不具有普遍的代表性。问题6:能否将系统测试和验收测试“合二为一”?系统测试不是一会儿就能做完的,比较长时间的用户测试很难组织。用户还有自己的事情要做,他们为什么要为别人测试呢?即使用户愿意做系统测试,他们消耗的时间、花费的金钱大多比测试小组的高。系统测试时会找出相当多的软件缺陷,软件需要反反复复地改错。如果让用户发现“内幕”,一是丢脸,二是会吓跑买主。所以还是关起门来,先让测试小组做完系统测试的好。,3.测试人员的组织,3.1 了解开发人员的测试心理测试的目的是找出尽可能多的缺陷。所以测试是“破坏性”的,而开发却是“建设性”的。开发人员总是喜欢欣赏程序的成功之处,而不愿看到失败之处。让开发者去做“蓄意破坏”的测试,就象杀自己的孩子一样难以接受。开发者对自己的程序印象深刻,并总以为是正确的(自信是应该的)。倘若在设计时就存在理解错误,或因不良的编程习惯而流下了隐患,他本人很难发现这类错误.开发者对自己的程序的功能、接口十分熟悉,他自己几乎不可能因为使用不当而引发错误,这与大众用户的情况不太相似,所以测试自己的程序不具备典型性。结论:开发人员应当测试自己的程序,这是他分内的工作。但是开发人员在测试自己的程序时,很难做到客观、公正,所以自我测试不具有说服力。,3.2 如何组织测试人员:应当视企业的人力资源而定条件特别好的公司,可以为每一个开发人员分配一名独立的测试人员。这样的测试人员职业化程度很高,可以完成单元测试、集成测试和系统测试工作,能够实现开发与测试同步进行。条件比较好的公司,可以设置一个独立的测试小组,该测试小组轮流参加各个项目的系统测试。而单元测试、集成测试工作由项目的开发小组承担。条件一般的公司,养不起独立的测试小组。单元测试、集成测试工作由项目开发小组承担。当项目进展到系统测试阶段,可以从项目外抽调一些人员,加上开发人员,临时组织系统测试小组。条件比较差的公司,也许只有一个项目和为数不多的一些开发人员。那么就让开发人员一直兼任测试人员的角色,相互测试对方的程序。如果人员实在太少了,只好让开发者测试自己的程序,有测试总比没有测试好吧!,3.测试人员的组织,3.3 避免开发人员与测试人员产生矛盾开发人员的注意事项:不要敌视测试人员。要理解测试的目的就是发现缺陷,是测试人员的工作职责。不要以为测试人员吃饱了没事干,存心找茬。不要轻视测试人员,别说人家技术水平差,不配搞开发只好搞测试。测试人员的注意事项:发现缺陷时不要嘲笑开发人员,别说他的程序真臭、到处是Bug。在开发人员压力太大时或心情不好时不要火上浇油,发现缺陷时别大声嚷嚷。请留意另一种极端:如果测试人员与开发人员的关系非常好,可能会导致在测试的时候“手下留情”,这对项目也是一种伤害。,4.企业的测试策略,4.1 理念:企业的主要目的是获取利润,降低测试成本也是盈利的一种方式。用较低的代价实现有效的测试,不应为了追求完美的测试而不失一切代价。,4.2 如何合理地减少测试工作量减少冗余的测试白盒测试与黑盒测试的方式虽然不同,但往往有“异曲同工”之妙。在很多地方,白盒测试与黑盒测试会产生一模一样的效果(或者能推理出来),这样的测试是冗余的。在集成测试、系统测试阶段,可能要执行多次“回归测试”。每一次“回归测试”都会存在不少的冗余,应当设法剔除不必要的重复测试工作。减少无价值的测试无价值的测试通常是由于不懂得测试技术引起的。例如功能测试,在等价区间之中,本来只要测试一个典型的输入就行了,如果有人在此区间测试了100次,那么其中99次就是无价值的。如何“偷工减料”有一些“短、平、快”的项目,经费本来就少,用户对质量要求也马马虎虎。为了能多挣一点钱,开发方不得不采用“偷工减料”的方式来降低测试代价。偷工减料的途径无非就是减少测试的内容和频度。但不能砍得太狠,否则软件拿不出手。基本方法是找出软件中需要优先测试的部分(见下表),其它次要部分可以忽略或将来再测试。,4.企业的测试策略,“偷工减料”方法的测试优先级:哪些功能是软件的特色?哪些功能是用户最常用的?如果系统可以分块卖的话,哪些功能块在销售时最昂贵?哪些功能出错将导致用户不满或索赔?哪些程序是最复杂、最容易出错的?哪些程序是相对独立,应当提前测试的?哪些程序最容易扩散错误?哪些程序是全系统的性能瓶颈所在?哪些程序是开发者最没有信心的?,4.3 测试何时结束基于测试用例的规则 基于“测试期缺陷密度”的规则基于“运行期缺陷密度”的规则4.4 测试奖励机制根据缺陷的危害程度,把奖金分等级。每个新缺陷对应一份奖金,把奖金发给第一个发现该缺陷的人。奖金额要适当,太低了人们不感兴趣,太高了会让项目破产的。,5.测试规范,5.1 测试流程第一步:制定测试计划。该计划被批准后转向第二步。第二步:设计测试用例。该用例被批准后转向第三步。第三步:如果满足“启动准则”,那么执行测试。第四步:撰写测试报告。第五步:消除软件缺陷。如果满足“完成准则”,那么正常结束测试。,制定测试计划,设计测试用例,执行测试,撰写测试报告,消除软件缺陷,审批,审批,回归测试,完成测试,完成准则,启动准则,5.测试规范,5.2 测试启动准则同时满足以下条件,允许开始测试:(1)测试计划已经制定并且通过了审批;(2)测试用例已经设计并且通过了审批;(3)被测试对象已经开发完毕并等待测试。,5.3 测试完成准则对于非严格系统可以采用“基于测试用例”的准则。同时满足以下条件允许结束测试:(1)功能性测试用例通过率达到100;(2)非功能性测试用例通过率达到90时。对于严格系统,应当补充“基于测试期缺陷密度”的规则:(3)相邻n个CPU小时内“测试期缺陷密度”全部低于某个值m。例如n大于10,m小于等于1。5.4 测试文档模板测试计划参考模板 测试用例参考模板测试报告参考模板,5.5 测试计划的参考模板,5.6 测试用例,5.7 测试报告的参考模板,6.软件系统的主要测试内容及技术,6.1 接口与路径测试6.2 功能测试6.3 健壮性测试6.4 性能测试6.5 用户界面测试6.6 信息安全测试6.7 压力测试6.8 可靠性测试6.9 安装/反安装测试,6.软件系统的主要测试内容及技术,6.1 接口与路径测试数据一般通过接口输入和输出,所以接口测试是白盒测试的第一步。每个接口可能有多个输入参数,每个参数有“典型值”、“边界值”、“异常值”之分,所以输入的组合数可能并不少。根据接口的定义,可以推断某种输入应当产生什么样的输出。输出包括函数的返回值和输出参数。如果实际输出与期望的输出不一致,那么说明程序有错误。白盒方式的接口测试和黑盒方式的功能测试,其方法十分相似。一个函数体内的语句可能只有十几条,但逻辑路径可能有成千上万条。想遍历测试几乎是不可能的,不测试或者胡乱找几条路径测试却又不行。对于非严格系统而言,在分析路径方面化费很多精力是不值得的。我认为在构造接口测试的同时已经建立了测试路径。因为每一种输入将产生唯一的输出,输入与输出之间的路径也是唯一的。由于接口测试中的输入是有代表性的,因此相应的路径也具有代表性,不用得着费煞苦心地去找测试路径。,路径测试的检查表数据类型、变量值、逻辑判断、循环、内存管理、文件I/O、错误处理 由于接口测试是枚举的,有可能漏掉某些状况,导致一些重要的路径没有被测试。预防措施有:观察是否有程序语句从来没有被执行过。如果发生在这种情况,要么是程序有错误,存在无用的代码;要么是接口测试不充分,漏掉了一些路径。要特别留意函数体内的错误处理程序块(如果存在的话),这是最易被人疏忽的路径,隐患最多。,6.软件系统的主要测试内容及技术,接口与路径测试用例的参考模板,6.软件系统的主要测试内容及技术,6.2 功能测试功能测试的基本方法是构造一些合理输入(在需求范围之内),检查输出是否与期望的相同。如果两者不一致,即表明功能有误。也有例外的情况,如需求规格说明书中的某个功能写错了,而实际上软件的功能却是正确的,这时要更改的是需求规格说明书。功能测试看起来比较简单,只要看得懂需求规格说明书,谁都会做。难点在于如何构造有效的输入。由于输入空间通常是无限的,穷举测试显然行不通。那么随便输入一些东西,碰运气行不行?功能测试有两种比较好的测试方法:等价划分法和边界值分析法。等价划分是指把输入空间划分为几个“等价区间”,在每个“等价区间”中只需要测试一个典型值就可以了。等价划分法来源于人们的直觉与经验,可令测试事半功倍。“缺陷遗漏在角落里,聚集在边界上”。边界值测试法是对等价划分法的补充。如果A和B是输入空间的边界值,那么除了典型值外还要用A和B作为测试用例。例如测试函数f(x)=根号(x)。凭直觉,等价区间应是(0,1)和(1,+)。可取典型值x=0.5以及x=2.0进行“等价划分”测试。再取 x=0以及x=1进行“边界值”测试。,6.软件系统的主要测试内容及技术,功能测试用例的参考模板,6.软件系统的主要测试内容及技术,6.3 健壮性测试健壮性是指在异常情况下,软件还能正常运行的能力。健壮性有两层含义:一是容错能力,二是恢复能力。容错性测试通常构造一些不合理的输入来引诱软件出错,例如:(1)输入错误的数据类型。如“猴”年“马”月。(2)输入定义域之外的数值。粗暴一些方式俗称“大猩猩”测试法。除了不能拳打脚踢嘴咬外,什么招术都可以使出来。例如在测试客户机服务器模式的软件时,把网络线拔掉,造成通信异常中断。恢复测试重点考察一下几项:(1)系统能否重新运行;(2)有无重要的数据丢失;(3)是否毁坏了其它相关的软件硬件。,6.软件系统的主要测试内容及技术,健壮性测试用例的参考模板,6.软件系统的主要测试内容及技术,6.4 性能测试性能测试即测试软件处理事务的速度,一是为了检验性能是否符合需求,二是为了得到某些性能数据供人们参考(例如用于宣传)。有时人们关心测试的“绝对值”,如数据送输速率是每秒多少比特。有时人们关心测试的“相对值”,如某个软件比另一个软件快多少倍。在获取测试的“绝对值”时,我们要充分考虑并记录运行环境对测试的影响。例如网络环境、计算机主频,总线结构和外部设备都可能影响软件的运行速度。性能测试的一些注意事项:不要试图让人拿着钟表去测时间,应当编写一段程序用于计算时间以及相关数据。应当测试软件在标准配置和最低配置下的性能。为了排除干扰,应当关闭那些消耗内存、占用CPU的其它应用软件(如杀毒软件)。不同的输入情况会得到不同的性能数据,应当分档记录。例如传输文件的容量从100K到1M可以分成若干等级。由于环境的波动,同一种输入情况在不同的时间可能得到不同的性能数据,可以取其平均值。,6.软件系统的主要测试内容及技术,性能测试用例的参考模板,6.软件系统的主要测试内容及技术,6.5 用户界面测试绝大多数软件拥有图形用户界面。图形用户界面的测试重点是正确性、易用性和视觉效果。在评价易用性和视觉效果时,主观性非常强,应当考虑多个人的观点。用户界面测试用例的参考模板:,6.软件系统的主要测试内容及技术,6.6 信息安全测试信息安全性(security)是指防止系统被非法入侵的能力,既属于技术问题又属于管理问题。信息安全性测试有如下步骤:(1)为非法入侵设立目标,例如“盗窃某个文件”或“更改数据库记录”等。(2)邀请(或悬赏)一些人扮演黑客,让他们想尽办法入侵系统,实现“目标”。(3)如果有人成功了,请他详述入侵的过程。别忘了给予奖励。信息安全性测试用例的参考模板,6.软件系统的主要测试内容及技术,6.7 压力测试压力测试也叫负荷测试,即获取系统能正常运行的极限状态。了解“极限”是很有价值的,例如潜艇下潜极限深度。压力测试的主要任务是:构造正确的输入,使劲折腾系统却让它刚好不瘫痪。压力测试的一个变种是敏感测试。在某种情况下,微小的输入变动会导致系统的表现(如性能)发生急剧的变化。敏感测试目的是发现什么样的输入可能会引发不稳定现象。压力测试用例的参考模板,6.软件系统的主要测试内容及技术,6.8 可靠性测试可靠性是指在一定的环境下、在给定的时间内、系统不发生故障的概率。由于软件不像硬件那样可以“加速老化”,按此定义,软件可靠性测试可能会花费很长时间。比较实用的办法是,让用户使用该系统,记录每一次发生故障的时刻。计算出相邻故障的时间间隔,注意要去掉非工作时间。这样我们可以方便地统计出不发生故障的“最小时间间隔”、“最大时间间隔”和“平均时间间隔”。其中“平均时间间隔”会让人们大体了解到系统“可靠”的程度。,6.软件系统的主要测试内容及技术,6.9 安装/反安装测试安装/反安装测试的目的:避免“大风浪都挺过来了,却在阴沟里翻了船”目前市面上有非常流行的、专门制作安装/反安装程序的一些工具,如Install Shelled。制作安装/反安装程序不再是件难事,关键是不要麻痹大意。主要测试工作:(1)至少在标准配置和最低配置两种环境下测试;(2)如果有安装界面,应当尝试各种选项,如选择“全部”、“部分”、“升级”等。,7.改错的方法,7.1 要有勇气改错改错是个大悲大喜的过程,一天之内可以让人在悲伤的低谷和喜悦的颠峰之间跌荡起伏。如果改过了成千上万个程序错误,那么少男少女们不必经历失恋的挫折也能变得成熟起来。软件中的错误通常只有开发者自己才能找出并改掉。如果因畏惧而拖延,会让你终日心情不定,食无味,睡不香。所以长痛不如短痛,要集中精力对付错误。东北有个林场工人,工作勤奋,一人能干几个人的活。前三十年是伐树劳模,受到周总理的接见。忽有一天醒悟过来,觉得自己太对不起森林,决心补救错误。后三十年成了植树劳模,受到朱总理的接见。若能以此大勇来改错,正是无往而不胜也。我们软件开发人员应当向这位可敬的林场工人学习。,7.改错的方法,7.2 对症下药改错的第一步是找出错误的根源,如同医生治病,必须先找出病因才能“对症下药”。改错过程很像侦破案件,有些坏事发生了,而仅有的信息就是它的确发生了。我们必须从结果出发,逆向思考。一旦找到了根源,我们就知道如何改正了。有人问阿凡提:“我肚子痛,应该用什么药?”阿凡提说:“应该用眼药水,因为你眼睛不好,吃了脏东西才肚子痛。”根据软件错误的症状推断出根源并不是件容易的事,因为:(1)症状和根源可能相隔很远。也就是说,症状可能在某一个程序单元中出现,而根源实际上在很远的另一个地方。高度耦合的程序结构加剧了这种情况。(2)症状可能在另一个错误被纠正后暂时性消失。(3)症状可能并不是由某个程序错误直接引发的,如误差累积。(4)症状可能是由不太容易跟踪的人工错误引起的。(5)症状可能时隐时现,如内存泄漏。(6)很难重新产生完全一样的输入条件,难以恢复“错误的现场”。(7)症状可能分布在许多不同的任务中,难以跟踪。人们把寻找错误根源的过程称为调试(debugging)。,7.改错的方法,7.3 硬件的调试方法硬件调试据说继承了中医的“望闻听切”诊断方法:(1)望,即用眼睛查看哪些地方是否有破损。(2)闻,即用鼻子闻哪些地方是否有烧焦的味道。(3)听,即用耳朵听哪些地方是否有异常的噪声。(4)切,即用手触摸哪些地方是否异常发烫。据有经验的电器修理工说,“望闻听切”这4招能解决大部分问题。通常软件改错要比硬件改错的代价低,因为后者经常抛弃原来的东西。,7.4 软件的调试方法软件调试的基本方法是“粗分细找”。对于隐藏得很深的Bug,我们应该运用归纳、推理、“二分”等方法先“快速、粗略”地确定错误根源的范围,然后再用调试工具仔细地跟踪此范围的源代码。如果没有调试工具,那么只好用“土办法”:在程序中插入打印语句如printf,观看屏幕的输出。有些时候,世界上最好的调试工具恐怕是那些有经验的人。我们经常会长时间地追踪某个Bug,苦恼万分。恰好有高手路过,被他一语“道破天机”,顿时沮丧的阴云就被驱散。改错的最大忌讳是“急躁蛮干”。人们常说“急中生智”,我不信。我认为大多数人着急了就会蛮干,早把“智”丢到脑后。不仅人如此,动物也如此。,7.改错的方法,7.5 改错时的注意事项(1)找到错误的代码时,不要急于修改,先思考一下:修改此代码会不会引发其它问题?如果没有问题,可以放心修改。如果有问题,那么可能要改动程序结构,而不止一行代码。(2)有些时候,软件中可能潜伏同一类型的许多错误(例如由不良的编程习惯引起的)。好不容易逮住一个,应当乘胜追击,全部歼灭。(3)在改错之后一定要马上进行回归测试,以免引入新的错误。改了一个程序错误固然是喜事,但要防止乐极生悲。更加严格的要求是:不论原先程序是否绝对正确,只要对此程序作过改动(哪怕是微不足道的),都要进行回归测试。(4)上述事情做完后,应当好好反思:我为什么会犯这样的错误?怎么能够防止下次不犯相似的错误?最好能写下心得体会,与他人共享经验教训。,8.小结,优秀的程序员敢于声称自己编写的代码没有错误,这种自信让人羡慕不已。一个错误自身也许很微小,但是程序存在错误这件事很严重。能否做好测试工作,态度是很关键的。测试的真正动机是为了让软件赚更多的钱,所以人们在执行测试之前至少要搞清楚两个问题:(1)要测试什么东西?(2)怎样有效地测试?程序员应该把测试当成份内之事,不要过分依赖于外界的“黑盒测试”。“黑盒测试”就象通过提问题来判断一个人是否是个疯子,但无法知道他为什么成了疯子。让程序员先对自己的代码进行白盒测试并非多此一举,这将使以后的日子更加轻松,并且习惯了就感觉不到有什么不方便。程序出了错误一定要改错,但是“编写优质无错”的程序才是根本的解决之道。在此,建议大家阅读Steve Maguire著的Writing Clean Code:Microsoft Techniques for Developing Bug-free C Programs(有中文译本,Maguire 1993)。开发人员总是要经常面对各种各样的Bug,但是不要过于烦恼,不要忘记“每天都是生活”。要懂一点养生之道,尤其要正常作息,过正常人的生活。熬夜编程只能偶尔为之,不可习以为常,否则不知不觉地伤害了身体健康,很不值得。,