欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    2024人工智能 深度学习算法评估.docx

    • 资源ID:7321915       资源大小:67.97KB        全文页数:21页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2024人工智能 深度学习算法评估.docx

    人工智能深度学习算法评估前言III引言IV1范围12规范性引用文件13术语和定义14评估指标体系24.1 评估指标构成24.2 基础性能24.3 效率34.4 1可解样性34.5 鲁峰性44.6 安全性54.7 公平性64.8 深度学习算法的评估等级65评估流程75.1概述75.2 评估准备85.3 评估执行95.4 分析评估结果10附录A(资料性)12附录B(资料性)15参考文献18深度学习算法评估的意义和作用主要体现在以下几个方面:1,算法性能的度量和比较:评估深度学习能法的性能是算法研发和优化过程中不可缺少的一环。通过对比不同算法的性能,可以了耕各种算法的优劣,为算法的改进提供依据,同时,对于相同算法,通过对比不同参数设置或不同数据傀上的发现,可以评估算法在不同场景下的适应性.2、算法问的的没断:深度学习算法的评估结果可以用于诊断算法存在的问题.如果蚱法在某些方面的表现不佳.可以通过分析注估结果未定位同髭所在,为改进算法提供突破口,例如.如果模型的测准确率较低,那么可能需要检查模型的架构、训练数据的质量、训练过程的多数设置等方面。3、算法的应用前景预测:深度学习算法的脚用前景预测是算法评砧的一个重要方面.通过评估深度学习算法在不同领域的应用效果,可以了解该驿法在不同场景下的适用性,为算法的应用推广提供参考.例如,深度学习在图像识别、语音识别、自然语言处理等领域的应用己经得到了广泛认可,但在某屿领域的应用效果可能还需要进一步探索和评估.总之,深度学习算法评估是算法研发和应用过程中不可或跳的一环,它可以精助研发人员了解算法的性能、问跑和应用前景.为算法的优化、改进和推广提供依据.然而,业界缺乏对深度学习算法的系统性评估方法,一定秘度上影响着深度学习的广泛应用和技术发展,本文件比版本仅针对人工智能深度学习心法的基础性能、效率'可解择性、件棒性、安全性和公平性评砧进行要求,密在研究的深入及应用的发展,后续将不断进行持续改进,逐渐技展到深度学习算法可移掖性等方面的评估.人工智能深度学习算法评估1范困本文件确立了人工智能深度学习算法的评估指标体系,描述了评估方法等内容.本文件适用于指导深度学习律法开发方、用户方以及第三方等相关加织对深度学习算法及其训缥得到的深度学习模型开展评估工作.2规色性引用文件下列文件中的内容通过文中的规范性引川而构成本文件必不可少的条款.其中.注H期的引用文件,仅该日期时应的版本适用于本文件:不注日期的引用文件,其最新版本(包括所有的修改垠)适用于本文件.GB/T41861-2022信息技术计算机视觉术语GB/T41867-2022信总技术人工智能术语ISO/1EC25059:2023软件工程系统和软件质量要求与评估(SQuaRE)人工智能系统的质贵模型(Sor1.WareenKineerinK-SystemsandsoftwareQua1.ityRtsandEva1.uationQua1.itymode1.forIsystems)3术语和定义GB/T41864、GB/T41867.IS0IEC25059:2023界定的以及下列术谱和定义适用于本文件.3. 1深度学习deep1.earning通过训练具有许多陷薄层的神经网络来创建丰富层次表示的方法.注:深度学习是机器学习的一个子集GB/T418672022,3.2.273.2深度学习模型deep1.earningmode1.一种包含多个层次神经网络结构的机器学习模型.3.3深度学习算法deep1.earninga1.gorithm使用深度神经网络结构进行学习和推理、以完成特定功能的代码片段。3.4测试数据testdata评价数据eva1.uationdata用于评估最终机器学习模型性能的数据.GB/T11867-20223.2.33.5精度precision预测类别为正样本的集合中真实类别为正样本的比率.注:精度一般每一类分别计算。GB/T41864-20223.9.83.6召回率reca1.1.被正确预测的正样本占全部正样本的比率.注1:3回率和精度一般具有反比关系:一方升高时另一方趋向于降低。注2:也称为其阳性率.GB/T11861-20223.9,203.7准确率accuracy预测正确的样本数占总样本数的比率.3.8对抗样本adversaria1.examp1.es在数据集中添加细微干扰形成的输入样本,能以较高概率诱导深度学习算法给出悟误的都出,甚至是给出特定结果.4评估指标体系4.1 评估指标构成基于深度学习作法内外都彰响考虑,结合用户实际应用场景需求.本文件给出深度学习算法的评估指标体系,包括基础性能、效率、可解择性、鲁棒性、安全性、公平性等6个质f掂性,见图I.在实施评估过程中,应根据不同类型的深度学习算法,设置不同质量特性卜的评估指标.图1深度学习算法评估指标体系4.2 基础性能4.2.1 减述V-干不同i果度学习骈法的任务和输出,采用不同的评估指标去衡IA原础性能.4.2.2 评估指标基础性能的评估应包括但不限于下列指标:a)准确率:预测正确的样本数占总样本数的比率.b)精度:预测类别为正样本的集合中我实类别为正样本的比率.C召回率:破正确倭测的正样本占全部正样本的比率.<1)错误率:对于给定的数据集,预测枯误的样本占总样本的比率.C)FKfi:精度和召回率的调和平均数,衡鬓二分类模鞭精度的一种指标,兼顼了分类模盘的精度和召回率.f) KUft度:两个概率分布间的差异的非对称性度眼,它比较了真实分布和理论(拟合)分布之间的差异.g) ROCIffiit:受试者工作特性曲线,由不同设定条件下的真正率和假正率向而出的响应曲战,是反映敬塔性和特异性连续变量的综合指标.h) PRC曲线:精度召I可率曲我,是一种同时显示不同阙位下深度学习算法精度和召回率的图形化方法.一般X轴表示召回率,、轴表示精度.i) CRC曲线:累枳响应曲现,也称为增益曲线或纳福图,是显示跨多个俵值的总数期中立阳性率和阳性预测百分比的图形方法。附录A给出了深度学JJ算法针对不同任务选取的基础性能指标示例。4.3 效率4.3.1 期述深度学习算法的效率通常指的是律法在达到给定性能目标时所消耗的资源与时间的多少,4.3.2 评估指标效率的评估应包括但不限于下列指标:a)平均处理时长:用于定义和评价在相同测试环境K深度学习律法模型处理相同任务的时间消耗“在测试阶段,它包含算法模型单训练轮次执行时间'多训练轮次执行时间、达到特定精度执行时间等测试元。b)平均资源开销:用于定义和评价在相同测试环境下.深友学习算法模型处理相同任务消耗的资海t大小.在测试阶段,它包含究法执行时的算力满耗、存储消髭、带宽消耗等测试元.4.4 可解释性4.4.1 概述深度学习算法可解修性用于评估蚱法对于结果的解择和理解能力。4.4.2 评估指标可解择性的评估应包括但不限于下列内容:a)解择一致性:针对局部替代模型的可解择测试方法,要求待解样的深度学习算法决策结果与其通过可斛并性方法输出结果具有一致性,即幼玳结果一致性.这是深度学习算法具有可解择一致性的基础,若待解株的深度学习匏法结果与可解糅性方法输出结果没有足筋的一致性,则其不能有效地解修深度学习算法,可使用为代根型一致性等指标评估一致性。斛择一致性可以使用输出结果一致性进行评估,输出结果致性是指通过计算输出结果的异众比率,来表明数据的一致性,其计豫公式如下;£-Vr=1.,其中,Vr表示异众比率,Eft为变演值的总频数:%为众数组的频数,n混示数组的数最。b)翎择有效性:要求解保能准检地反映出深度学习算法的决策逻辑.有效的解择应包含深度学习算法预测时所依据佐恩.解柞有效性可以使用判定系数来评估。判定系数:乂称R2系数,是指反映因变收的全部扰动能通过回归关系被自变量例样的比例.R2值越接近于1.回归拟合效果越好,一般认为超过80%的模型拟合度比较而,其计算公式如下:R2=一¾1<y>-y)2用y,去示真买的观测值,y表示真实观测值的平均值,%表示预测值。c)解择因果性:要求生成的解和与待解样深度学习凭法预泅之间具有因果关系,因果关系是指解择中包含的特征是预测结果的原因.与预测结果有因果性的解择越多,则其解释性越好.解林因果性可以使用特征贡献分数进行评估,特征贡献分数是指用来解样的H1.要性前的k个样本特征分数和与全部特征分数和的比值.其计算公式如下:f_EGhhk1.hr1.£fi其中,f“h"为特征贡献分数,fa为用来斛择的重要性雏前的前k个特征分数之和,0为全部特征分数和。d>解择充分性:要求解林能就凝蔽深度学习算法的整体功能。充分的解释应充分且精掂股靛科本空间.解样充分性可以使用离散系数来评估。离散系数是指数据的标准差与平均数的比俏,用来比较不同类别数据的曲敢程度,其计算公式如下:aVS=X其中,VS表示次敌系数,a为数据的标准差,又为数据的平均数,4.5 鲁棒性4.5.1 飘述鲁林性是在面对非对抗增广的样本时,深度学习算法仍能保持与实脸环境中利试性能相当的能力。4.5.2 评估指标瞥棒性的评估应包括但不限于下列内容:a)性能波动率:描述模里在原始测试数据集和经过非对抗扰动处理后的新测E数据集之间的性能差异.该指标盘化了模型在面对扰动时的稳定性值越小表明模型在面对扰动时具有较高的植定性,从而为模型的俘悻性提供了鹿城,具体计算公式如下;Phn.InUW-PhcrtiSrtJPFD=©其中,PFD我示模型的件能波动率.Ph”m每藤由丽嬴试数据集上的性能指标,Ph“.”1表示模缎在经过非对抗扰动后的新测试数据集上的性能指标,对于多种扰动,模型的鲁棒性可以通过如下公式破化:R=w1×PFD1.i三1.其中,R表示模型瞥件性,助丧示第i种扰动的权重,N表示共有N种扰动方法,PFD,表示模型在第i种扰动下的性旎波动率.注:这里的性能选取的是基础性能中的评估指标,对于不同任务选取的性能指标不同,例如图像分类任务选取准码率为性能波动指馀,目标检测任务选取nP为性能波动指标;在评估过程中,也Ur以选取多个性能指标,逐一计算性能波动率.b)扰动稔定性:描述模里在经历非对抗扰动后出现性能退化的样本与其对应的原始样本之间的最小矩高.该指标立化了模型在面对扰动时所能容忍的城大变化,值越大衣明模型在面对扰动时具有较强的抵御能力,从而为模型的各棒性提供了度吊,具体计分公式如下:PSQj=min(dist#hh其中,PSDe衣示模型的扰动梗定性,X表示数据集,X表示样本实例,diS1.衣示在类里的扰动下样本与扰动样本的距网函数。具体实现方式如下:<W,h=PXT"取hGyI,hther¼rise其中,f(xh去示通过类型扰动牛.成的样本父的判定结果y衣示真实标签C对于多种扰动,模型的行棒性可以通过如下公式砧化:R=min(mindist(xhhXeX其中,R表示模型善栈性.e表示扰动集合.4.6 安全性4.7 61做述深度学习算法的安全性用于评估算法对于对抗样本的防范能力.4.8 .2评估指标安全性的评估应包括下列内容:a)攻击成功率:描述在经过攻击方法构建的新测试数据佻中,模型预测失败的样本数与总样本数之间的比率,该指标量化了在外部攻击下模型的安全性,值超小表明模型在面对攻击时具有较高的抵抗能力,从而为模型的抵御攻击能力提供了度S1.具体计算公式如下:ASR=姐nru其中,ASR表示攻击成功率MW1.表示样本总数,NMV表示预测失败的样本数.b)模型盼取程度:描述通过如模型蒸搐或其他方法内建的代理模型与原始模型之间的性能差异.该指标量化了代理模型对原始模型的近似程度,值越X表明模型能第更好地近似或处制原始的模型功能,从而为模型的安全性或难以被复制的程度提供了度麻,具体计算公式如下:MSD=%其中,MSD表示模型以取程度,IDI表示数据集的样本总数,Wh为指示函数,当代理模型的预测与原始模型的预测相同时为1,否则为0,注:当代理模型!的预测结果与原始模型的预测结果的藻值在设定区间内时,均为预测相同,可赋值为1。C)平均攻击查询次数:用来衡盘生成对抗样本所需的平均模型查彻次数.在这种情况下,攻击者试图通过在输入样本中引入微小的扰动来欺骗模型,使我产生错误的预测域分类结果.较少的查询次数意味芥模型更容易受到攻击.d)攻击陷筋性:足指时抗攻击生成的对抗样本与原始样本之间的平均相似程度.在攻击隐极性方面,攻击者的目标是生成的对抗样本尽可能与原始样本保持相似,以至于人类观察者难以察觉到其存在.攻击隐蔽性越高.意味着对抗攻击可以更行效地欺蝙模型.4.7 公平性4.7.1 概述深度学习以法的公平性用于评估獴法对于不同群体的处理是否有歧觇和输出顺量的差异.4.7.2 评估指标公平性的评估应包括下列内容:a)械适阑性独立程度:衡心算法对不同拙感属性群体进行特定预测的比例之间的最大差弁.这一指标旨在衡地在算法预测中,受保护属性的UJ能影响程度.理想情况下,一个公平的算法应该使得对于所有受保护M件群体的预测分布尽可旎相同,即敏感睇性对算法预测的影响很小,SAID的较低值去明模型预测对不同群体更加一致,体现了较高的公平性。具体计算公式如下:SAhD=m标XItM(ZIAr_th该IA=勺h.HA.*1.th该nt(A=Ihhth¾nt(A=h|其中,SAhD表示敏礴属性独立程度,A表示敏感属性集合,1.表示标签集合.个非示梗里的预测结果.Ih该n()衣示计数函数。b)模型决策分离程度:所玳在口实类别为特定值时,模蟹在不同敏感属性群体之间做出错误预刈的概率的旌异.该指标关注模型在特定K实类别下的错误决策,并比较这些错误在不同照感属性群体之间的分布是否均衡。具体计算公式如下:mds_m标XXmith诊nt伶=TIA=标,Y=Vh_XgthMt-=IA=标Y.b.<jAR.th该nt(A=标hth该nt(A=玩h其中,MDS友示模型决策分离程度,Y表示真实值,MGfi1.C)模型决策充分程度:衡质在模型预测标签为特定值时,模型在不同故迷屈性群体之间正确预测该标签的概率的差异.该指标关注在模鞭预测为特定类别时的正确决策,并比较这些正确预测在不同敏感属性群体之间的分布是否均衡.具体计算公式如下:MDSF=m标X卜岭叫丫=JIA:M习_th该nt(Y="A=标Y=h卜,死儿外1.th该nt(A=林hth该IH(A=标h其中,MDSF表示模型决策充分程度.4.8 深度学习籁法的评估等级深度学习律法的评估结果分为优越缎、进阶姬、条件拔、受限级四个等级,针对每一个算法失效,应基于确定的理由来预估潜在危险的严曳性等级.深度学习匏法失效的危险严曳性等级如下:优越级:在该等汲下深度学习算法的失效通常是一些小规模的问胭,不会对整个系统或应用的性能造成再由威胁.例如,深度学习算法在某些特定情况下的性使珞做下降,但不会导致植著问题,整体性旎仍在可接受范国内。这类同座通常可以通过微小的调俵、出台数优化或数据清洗未解决,进阶级:在该等级卜深度学习算法的失效会时系统或应用的性能造成一定程度的负面影响,但不至于导致严笫问题.例如,深度学习算法的性能在某些关城任务中低于期里,但在其他任务上表现不错.解决这类问题可能需要更深入的研究、数据增强,迁移学习、模型选择等方法.条件级:在该等徼下深度学习算法的失效会对整个系统或应用的性能产生更大影响.可能导致项目失败或产JR报占用户体柴.例如,深度学习算法的性能不枪定,好致无法在实际团用中可奈地使用.解决这类何时可能需要全面的重新设计、数据收集、模型选择等措施.受限找:在该等级下深度学习算法的失效可能对人们的生命、财产或安全构成宜接威胁,可能导致法律问题或损害声誉.例如,自动骂驶汽车系统的算法失效,导致事故发生.解决这类问题可能需要猛急行动.彻底申告、法律干预等措施,需要涂合考虑伦理、法规和道谯问题,根据算法失效的危险严重性等圾,畿立深度学习算法的等级目标(见表1).其中等级目标从高到低依次分为优越级、诳阶级、条件级、受限级四个级别.表1深度学习算法的等级目标等级目标等级目标说明优也级外部环境发生扰动或B1.对不友好的输入.不依检利益相关方的管理和闲置.健果取有效措篇,按服预期完成工作,不影响算修绐果,进阶段外部环境发生扰劭或面对不友好的怆入,通过利裱相关方的配SS及好理,侍押仙算法能按照Hi期完成工件,不影响算法结果,条件级在友好的外部环境及输入下.也评估灯法可以按解向期完成工作:外部环境发生扰动或面对不发“的输入,通过利益相关方的配况。管理,存评估怜法能按预期完成工作,不对U法结果造成或大影响.受Hm在友好的外部环境及输入R樗评怙。法能按照预期完成工f1.”当外部环地发生扰动或面对不及好的输入,恃评估算法不徒按曝预期完成工作,可流对口法纳果造成爪大影响.深度学习算法评估应面向不同等级目标.基于用户需求或过往经验,设定不同指标要求.深度学习算法评估时,可地于评估指标项汨分所在区间,判定该指标项所处等级,详见衣A.1,5评估流程5.1 做述深度学习。法的评估流程如图2所示,包括评估准备、评估执行、分析评估等三大步骤.其中,评估准备包括SS试数据集输入,测试数据集旗纸审食、选择质量特性、选择评估指标、构建评估模型等子步骤:评估执行包括运行评估任务、获取并计算测试指标等子步骤:分析评估包括算法质业评估(国次、多次、多轮评估)、算法质砥综合评估等子步骤,谭佑准备则代敢务集输入fMhn评估执打运厅律估任务分析评估图2深度学习算法的评估流程5.2 评估准备5.2.1 测试数据集质量审查被测方应按质St要求提供测试数据集,测试数据集的质ST中查应满足以下要求:a)对数据的完整性进行审衽,评估数据是否存在玦失伯、异常值或未标记的数据点。b)对数据的准确性进行审查.与数据采集、标注等环节的实际情况进行比对5金证.或通过额城专家的评估诳行验证,评估数据的时间微、标签或其他标识是否有误.c)对数据的一致性进行审查,评估数据是否具备相同的格式.d)对数据的重复件进行审查,评估数据是否存在重复记录或者冗余特征.C)对数据的偏差进行审查,评估数据是否存在数据分布和标签分布不均的情况。f对数据的可用性进行审查,评估数据是否具备参考文档以及数据是否受法律或者除私限制.当测试数据集质砥通过申杳,则进入“选择质累特性”步骤:否则,站束本次评估,5.2.2 选择质量特性和评估指标选择评估指标包括桢琏特性选择、评估指标选择两个部分。质房特性选择包括基础性能、效率、可解择性、鲁棒性、安全性'公平性6个选项:评估指标选择是指在每个质显特性卜,选择若干个评估指标。不同任务类型(图像分类、目标枪测、语音识引、文本侪感分析、文本命名实体识别等)的深度学习算法选取的评估指标要求不同,因此在面向算法的评估过程中应确定与之对应的评估指标要求,附录A给出了深度学习算法的评估指标的选取规则.5.2.3 构建评估模型构建钾估模型是指设置评估指标通过的基准分值,以及评估指标的权重等.a)确定评估指标通过的她准分伯指标基准分值的设定应划分为四个等级,用于将算法性能分类为不同等级.例如,对于“准确率”的指标可以划分为四个等级,即: 优越级:准确率大于等于99%: 进阶级:准确率在95%到99%之间: 条件汲:准确率在9典到95%之间; 受限级:准确率低于90%.注:深度学习算法对于不同应用场景,同一指标的基准分侪可能不相同.例如,准倘奉用于医疗场景和用于手写体识别场景中,其四个等级的阈值设定并不相同。附录A给出了深度学习算法评估不同指标的推荐阀伯.b)设置评估指标的权理评估指标的权重为百分比小数精度为小数点后两位.所有的权重之和应等于1.默认每个选取的评估指玩的权理一样,即100v(选取的评估指标数从),当狭得的商的小数部分大于2位时,四舍五入取前两位,最后一个评价项的权重作为调熔项,使其等于UOO-(前面所有评估指标权重和).质及特性的权虫可以通过相同方法进行设?1.C)得到本轮评估的等级闽值通过评估指标设定的基准分伯和权倒,计算可得斑个顺限特性的等级闺值。进一步的,通过对筋技特性的加权求和,计算得到本轮算法评估的等级面值.5.3 评估执行5.3.1 运行评估任务运行一次评估仔务包括算法测试环境部署、被测算法加栽、被测律法测试执行等三个部分。测试环境部若:包括硬件环境(如服务器)搭建、软件环境(如操作系统、数据库搭建、兼容性测试、网络环境部署等;被测舞法加载:读取或解析被测算法的文件(如程序包或数据包:被测算法测试执行:使用选定的假枪数据集运行算法文件,IO5.3.2评估指标的获取和计算I1.深度学习算法评估测试数据集与相关侦量特性及评估指标的关联性如图3所示总蛤数宛集熊-对抗样本生成安个憧公平性因,图3深度学习算法评估测试数据集与相关评估指标的关联性测试数据先的输出包含样本及其标甚,用于数据集质业评估、深度学习算法结果预测、非对抗样本生成及对抗样本生成:原始数据集的输出包含样本及预测tf1.,用于基础性能、效率、公平性、可解建性等质量特性及其评估指标的计算:非对抗样本生成的输出包含增广样本及其标签,用于普棒性等质碳特性及其评估指标的计算:对抗样本生成的输出包含对抗样本,用于安全性等质埴特性及其评估指标的计算.5.4 分析评估结果5.4.1 算法质量评估算法团跳评估包括单次算法质盘评估'多次算法质盘评估、多轮算法质盘评估几个部分.单次算法质玳评估:是指使用一个洌试数据集执行一次算法测试过程:多次算法质量评估:是指使用多个测试数据集,每个测试数据集执行一次算法测试过程:多轮算法质疑评估:是指使用同一测试数抠集执行多次算法测试过程,且每次灯法测试过程选定的评估指标要求并不相同。5.42算法质量综合评估评估结果等级的判定准则应满足以下要求:a)计笄旬个评估指标的结果:b)通过对比评估指标的准分做(见4.8,计算得到选定的评估指标的评估得分;C)对于选定的评估特性的评估得分加权求和计算,权更为评估模型中设定的评估指胡权更(见5.2.3b>,得到每个质E特性的评估得分:进一步的,射比每个质做特性的评估得分与评估模型中政战特性的等级阀值(%5.2.3c>,判定每个质玳特性归弼于哪个评估等锻:d)对于质域特性的评估得分加权求和,计算得到深度学习算法的总得分;e)将深度学习算法的总得分与算法评估的等组阈值(见5.2.3c)归时比,划定该深度学习算法归属于哪个评估等级.附录B给出了深度学习算法评估实施案例.附录A(资料性)深度学习算法评估指标选取要求和阂假要求表A1给出了深度学习算法的评估指标的选取要求和阂值要求.适用于不同类型、不同等级的深度学习算法在不同的应用场景下选择合适的评估指标.设置评估网值.开展评估活动,表A.1评估指标选取要求和诩值要求算法类型评估等级评估指标适用场景基础性能效率科卜6性安全性可解释性公平性平均处理时长平均资源开策性能波动率扰动助匚性攻击成功率快型窃取程度平均攻击衣询次数攻击的感性解释一致性解择有效性解择因果性解释充分性敬聘属性&S1.程度模型决策分离程度模型决策充分程度图像分类优越级进阶级条件缴受瞅汲语音识别优越微迸阶级条件级受限汲文本识别优越徼进阶级条件级受瞅汲注:不同律法类型的基础性能质呆特性将由不同评估拒帆tn成.其体评伍时应面向待用估深慢学习算法类型选取对应的基础性能指标进行褥估一如.图像分类选取港确率、白问率、F1.分散等:语音识别选取字错误率,句辩误率、字也配串等:文本识别地取字符识别准确率、字符识别4别率等.衣A.2给出了根据深度学习算法不同任务类型,选择不同的基础性能评估指标的示例。表A.2基础性能评估指标的选取示例方试效据集类型深度学习算法的任务类型若砒性能的讦估指标图像分类(二分类)F1.分数、准确率、精确率、召回率、G-mean,特异度、误诊率、错误率等分类(多分类)加权平均精确率、加权平均存回率、加权平均F1.分数、现平均茄确率、宏观平均召回率、宏观平均F1.分数、微观邛均精确率、观平均"1可率、微观平均FI分数、准确率、召回率、FI分数等目标检测(单类/多类)IOU.11UAP明细、置信度等目标跟踪(单类/多类)IOU.MOTA,XoTP、IDP1.、IDP'IDR,主要跟踪目标数依、主要丢失目标数量、部分跟踪目标数量、JTRM1.、PT、IDSW,碎片总数、11uP.AP等行人重识别(可见光)InAp、处理效率平均时长、召回率(Top1.Top5op1.0)视频目标检测(单类/多类)IO1.I.IiiAPxAP明细、置信度目标跟踪(单类/多类)IOV,*)T,MOTP,IRPkIDP,IDR,主要跟踪目标数依、主要丢失目标数量、部分跟踪目标数量、W、M1.、PT、IDSW.碎片总数、InAP.AP文本情厚分析F1.分数、准确率、精确率、召回率、G-mea111特异度、误诊率、错误率命名实体识别加权平均精确率、加权平均召回率、加权平均F1.分数、宏现平均精确率、宏观平均召回率、宏观平均F1.分数.微观平均就确率、微观平均召回率、微观平均F1.分数、准确率封网率、FI分数谙音谙音识别平均同错误率、平均词信息丢失率、平均匹配播误率、平均字符错误率、平均词信息保留结构化数据分类F1.分数、准确率、精确率、召I可率、G-mean,特异度、误诊率、错误率附录8(资料性)深度学习算法评估实施案例附录B给出了深度学习算法评估实做案例.8. 1深度学习算法说明红外目标检测舞法是一种通过分析红外图像来检测和识别目标物体的算法.其原理是利用物体发出的红外幅射与背景的差界来识别目标,因为物体的红外辐射受到温度的影响,而背景的红外辐射受到环境i度的影响,因此可以通过测量红外辐射的强度来识别目标。8.2 评估准备a)测试数据集防量审查测试数据集为红外图像数据集,b)选择质Ift特性和评估指标质量特性选择基础性能和可解择性:其中,基础性能的W估指标选择FI分数、准确率、精确率、3回率、错误率等:可解锋性的评估指标选择好择一致性'解释有效性、湃择因果性、解糅充分性等得C)构建评估模型表B.1m础性能的评估指标评估指标评估结果评估得分测试结果等级说明F1.分数优越被0.99,进阶级20.9.条件级20.8,受限级<0,8准确率优越级99%,进阶级二9佻.条件级80%,受限级80%精确率优越级399%,进阶级390%条件级380%,受限级<80%召回率优越级N99%,进阶级N90%,条件级380%,受限级<80%错误率优越级W10%,进阶级W20,条件级W30受限级>30%总评优越级75,100,进阶级50,75),条件级25,50),受限城0,25)权重设置:基础性能;20%F1.分数+20%准确率+20%精确率+20%召回率+20%错误率,表82可解释性的评估指标评估指标评估结果评估得分测试结果等级说明解修一致性优越级20,99,进阶级£0.9,条件级30.8,受限级08解修有效性优越级£99%,进阶级390%,条件侬380%,受限级80%解择因果性优越级399%,进阶级690%,条件级80%,受限级80解择充分性优越级399%,进阶级390%条件级680%,受限级80总评优越级75,100,进阶级50,75),条件级25,50),受限级0,25)权重设巴:可解样性-25%解择一效性25%解择有效性*25%解择因果性25%解择充分性.本轮算法评估的等级阈侑=75%整础性能+25%可解群性,注1:表BJ和表比2中的测试结果友示每个评估指标刈试运行的结果.注2:表B.1和表比2中的评估得分表示每个指标的测试结果对应的评估褂分,KX分制,O为越低分,10()为最高分,精度为小数点后两位。对于正向指标,如F1.分数、准确率、精确率、召回率、解铎一致性.解林电效性、解择因果性、解择充分性等,评估得分=测试结果*100.对于反向指标,如错误率,评估得分=(1-测试结果*100.注&表B.1和表B.2中的评估结果是根据评估科分处刊5个级别的阈值区间内得到的.分为优越级、进阶级、条件级、受限级,8.3 讦估执行运行红外目标检测算法,得到基础性能和可轿择性评估指标的测试结果.8.4 分析评估将测试结果计算m入表B.I和表B.2中.得到该红外目标检测算法的评估物.如表B.3和表B.4所示.表B3基他性能的评估指标(含评估结果评f1.指标评估结果评估得分测试结果等级说明F1.分数优越级980.98优越级i.99,三S0.9,条件级AX8,受限级0.8准确率优越级99.8799.87%优越级99%,进阶级-90.条件级80%,受限级80%精确率进阶级9292%优越级9%,进阶级90%,条件级80%.受限级8傲3回率优越级9898优越级N99,进阶级N90条件级N80%受限级8傥错误率进阶级8713%优越级W10,进阶侬W20条件级W30受限级3仍总评优越级94.97/优越级75,100J,进阶级50,75),条件级25,50),受限级0,25)表84可解释性的评估指标(含评估结果)评估指标评估结果评估得分测试结果等级说明解修一致性优越级9999%优越级H099,进阶级£0.9,条件级30.8,受限级<08解修有效性优越级8989优越级£99%,进阶级390%,条件侬380%,受限级<80%解择因果性进阶级8181%优越级£99%,进阶级£90%,条件级380%,受限级<80解择充分性优越级9797%优越级£99%,进阶级£90%,条件级£80%,殳限级<80总评优越级91.5/优越级75,100,进阶级50,75),条件级25,50),受限汲0,25)结论:综合基础性能和可解择性的评估结果,得到本次价外目标检冽算法的评估等级为优越级.18

    注意事项

    本文(2024人工智能 深度学习算法评估.docx)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开