2023大模型可信赖研究报告.docx

资源ID：7026590 资源大小：345.84KB 全文页数：48页
资源格式： DOCX 下载积分：5金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2023大模型可信赖研究报告.docx

国信通院大模型可信赖研究报告（2023年）上海商汤智能科技有限公司中国信息通信研究院云计算与大数据研究所2023年12月版权声明本报告版权属于上海商汤智能科技有限公司与中国信息通信研究院，并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的，应注明“来源：上海商汤智能科技有限公司和中国信息通信研究院”。违反上述声明者，编者将追究其相关法律责任。本研究报告自2023年09月启动编制，分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段，针对大模型可信赖问题面向大模型的技术提供方、服务应用方开展了深度访谈和调研等工作。本报告由上海商汤智能科技有限公司和中国信息通信研究院云计算与大数据研究所共同撰写，撰写过程得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。本报告主要贡献单位（排名不分先后）包括：蚂蚁科技集团股份有限公司、阿里巴巴集团、阿里云计算有限公司、北京百度网讯科技有限公司。前言近年来，深度学习技术取得了突破性进展，大模型作为其中的典型代表，已经在自然语言处理、图像处理、多模态应用等领域取得了令人瞩目的成果，为经济社会发展带来新机遇。但随着大模型应用规模扩大、应用场景拓展，其风险问题也逐渐凸显，如安全漏洞、隐私泄露、易受攻击、偏见歧视、侵权滥用等，如何有效防范治理大模型风险、推动大模型可信落地引起社会各界高度关注。全球各界对大模型的可信赖问题展开了广泛的探索研究。在国际层面，政府间国际组织从人工智能伦理准则等基本共识出发，逐步深入推动大模型政策法规监管和产业治理实践落地。在国家层面，各主要经济体正加快推进大模型治理监管相关政策制定步伐。在产业层面,各行业机构与科技企业积极关注大模型风险，通过行业自律、技术及管理等具体实践措施推进大模型可信赖落地。本报告重点针对产业界大模型可信赖实践开展研究。首先，重点梳理了大模型发展现状，点明大模型的风险来源。其次，从大模型涉及的关键要素和可信维度出发，全面分析大模型面临的各项风险并进行整理归纳，形成大模型风险全景视图。再次，针对大模型在框架、数据、模型和生成内容等层面的风险，系统梳理了产业界保障大模型可信赖的关键举措。最后，本报告指出了当前大模型可信赖发展面临的问题及挑战，从多个维度提出了参考建议。大模型与行业融合正不断加深，风险问题仍在不断暴露，相应的可信赖实践也在持续涌现。本研究报告对大模型可信赖实践的认识和理解还有待加强，报告中如有不足之处，还请各方专家读者不吝指正。一、大模型发展现状1（一）大模型驱动新一轮科技革命1（二）大模型加速赋能产业应用1（三）大模型可信赖备受关注3二、大模型风险分析7（一）大模型风险视图7（二）框架层面，软件漏洞是现有深度学习框架短板8（三）数据层面，隐私风险与有害数据导致模型不可靠9（四）模型层面，提示词攻击诱发模型脆弱性风险11（五）生成内容层面，安全风险和不可追溯是重点难题14三、大模型可信赖实践17（一）框架层面，可信框架与执行环境保障运行安全17（二）数据层面，安全检测及处理助力大模型可靠19（三）模型层面，全流程防控增强大模型可信21（四）生成内容层面，过滤与标识实现内容可控可问责25四、总结与展望27（一）总结27（二）展望28附录31可信赖实践案例1:商汤科技SenseTrust可信AI基础设施31可信赖实践案例2：蚂蚁集团蚁鉴2.0-AI安全检测平台35可信赖实践案例3：阿里巴巴生成式人工智能发展与治理探索37可信赖实践案例4：百度大模型安全解决方案40图目录图12023年企业大模型可信赖实践汇总7图2大模型可信赖实践方案8图3微软“BingChat”提示泄露事件12图4大模型健壮性风险13图5大模型预训练阶段的长尾问题14图6数据安全沙箱技术20图7商汤伦理风险分类分级管理评估22图8思维链技术24图9大模型“机器+人工”内容审核机制27图10数字水印技术流程图27图1LSenseTrust''商汤可信Al基础设施31图12蚁鉴2.0-AI安全检测平台35图13阿里巴巴生成式AI治理实践及探索概览37图14百度大模型安全解决方案40图15百度大模型内容安全与评测体系41一、大模型发展现状（一）大模型驱动新一轮科技革命近十余年间，人工智能技术泛化能力、创新能力及应用效能不断提升，成为了推动经济及社会发展的重要引擎。2015年前后，人脸识别算法达到接近人眼的识别能力，被视为人工智能技术工业级应用水平的代表性事件。2022年，以ChatGPT为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现，大模型正逐步成为当前主流应用程序的重要组成部分。随着数据、算法和算力的不断突破，大模型将不断优化演进。在数据方面，海量、多模态数据将持续应用于大模型预训练，提升大模型的知识、理解和推理能力。在算法方面，将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面，智算中心及算力网络等基础设施加速建设，为大模型的开发和服务提供充足性能支持。到2026年，Gartner预测超过80%的企业将使用生成式人工智能的APl或模型，或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。（二）大模型加速赋能产业应用“大模型+”模式加速应用赋能，助推人工智能产业升级。当前,人工智能已经成为全球新兴技术领域的核心竞争力，各国政府加快研发、部署人工智能技术，推动产业高速发展。据统计I,我国人工智能核心产业规模已达5(X)0亿美元，企业数量超过4300家。2023年始，我国大模型市场火爆，百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型，并于2023年下半年逐步面向用户提供服务。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域，主要应用场景聚焦数据分析、客服、营销、办公等。其中，以能源、金融为首的两大行业结合行业数据建设基础，积极布局大模型应用落地，加速行业智能化转型。大模型技术生态逐步完善，大幅降低行业应用门槛。一方面，开源大模型加速大模型应用渗透，打通预训练、微调、部署、评测等开发阶段，进一步降低大模型研发应用成本。2023年7月，上海人工智能实验室正式开源了书生浦语大模型70亿参数的轻量级版本IntemLM-7B,并推出首个面向大模型研发与应用的全链条开源体系，同时提供免费商用，受到了学术和产业界的广泛关注。同年7月，OPenAl向用户正式开放了代码解析插件CodeInterpreter,使得ChatGPT和GPT-4可以根据用户问题来编写和执行代码，从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面，大模型正在逐步向智能体方向进化，从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合，智能体可以在接受用户输入后，通过大模型进行规划和决策，并对第三方插件或工具进行调用，从而实现复杂的任务处理能力，进一步降低了应用门槛。（三）大模型可信赖备受关注大模型在快速发展的同时也带来了一系列潜在的风险和挑战。一方面，大模型所需的海量数据、复杂参数以及工程难度放大了人工智能固有的技术风险，如数据窃取、泄露等安全问题，模型黑盒导致决策结果难预测和难解释问题，以及模型面对随机扰动和恶意攻击的鲁棒性问题。另一方面，大模型的多场景通用性也放大了隐私风险、歧视风险和滥用风险等应用风险。这些问题引发了全球范围的关注，对人工智能治理能力与治理水平提出了新的挑战。目前，全球大模型治理正处于探索阶段，从人工智能伦理准则等基本共识出发，逐步深入推动大模型监管政策法规和企业治理落地实践。国际组织积极制定人工智能治理原则及倡议，重点关注大模型的治理和监管问题。在政策方面，2021年11月，联合国教科文组织通过了人工智能伦理问题建议书，旨在促使人工智能系统造福人类、社会、环境和生态系统、防止危害，同时促进和平利用人工智能系统。2023年6月，联合国秘书长安东尼奥古特雷斯明确提出计划在今年年底建立一个国际人工智能监管机构，定期审查人工智能治理工作。2023年11月，在英国人工智能安全峰会期间，包括中国、美国、英国等28个国家和欧盟共同签署了布莱切利宣言，确保人工智能以人为本、值得信赖并负责任，通过国际伦理和其他相关倡议促进合作，应用人工智能带来的广泛风险。同年11月，世界互联网大会发布了发展负责任的生成式人工智能研究报告及共识文件，就发展负责任的生成式人工智能提出十条共识。在标准方面，ISO/IECJTCl/SC42人工智能分委会正在开展人工智能可信赖国际标准研制工作，为指导利益相关方研发、使用可信赖人工智能相关技术和系统提供参考，主要标准包括ISO/IECTR24028:2020人工智能的可信赖概述、ISO/IEC38507:2022组织使用人工智能的治理影响等。全球主要经济体加快推进大模型治理和监管相关政策制定步伐。中国在人工智能监管方面主张“包容审慎的分类分级监管”原则，国家网信办已于2023年7月10日颁布了首部面向大模型监管的生成式人工智能服务管理暂行办法，后续将进一步针对生成式人工智能技术特点及其在有关行业和领域的服务应用，制定相应的分类分级监管规则或指引。2023年10月8日，中国科技部发布科技伦理审查办法（试行），提出从事人工智能科技活动的单位，研究内容涉及科技伦理敏感领域的，应设立科技伦理（审查）委员会，并建立伦理高风险科技活动的清单制度，对可能产生较大伦理风险挑战的新兴科技活动实施清单管理。2023年10月18H,国家网信办发布全球人工智能治理倡议，提出发展人工智能应坚持相互尊重、平等互利的原则，各国无论大小、强弱，无论社会制度如何，都有平等发展和利用人工智能的权利。在标准方面，中国信息通信研究院已经启动大规模预训练模型技术和应用评估方法系列标准研制的工作，全面覆盖大模型的开发、部署和应用环节，其中第四部分可信要求是目前国内首项针对大模型领域的可信赖标准。与此同时，全国信息安全标准化技术委员会已经启动包括信息安全技术生成式人工智能服务安全基本要求在内的三项生成式人工智能安全国家标准编制工作，以支撑大模型的监管落地。欧盟现行人工智能立法仍主要集中在传统人工智能，但已经开始关注通用人工智能以及生成式人工智能的问题，主张尊重人格尊严、个人自由和保护数据及隐私安全。2023年6月14日，欧洲议会投票通过人工智能法案，该法案基于风险等级将人工智能系统分成四类，并制定了不同程度的监管要求。该法案提出生成式人工智能系统通常属于有限风险的人工智能系统，需遵守最低限度的透明度义务，但可能会因其适用的领域和生成的内容而落入高风险人工智能系统的范畴，并明确了通用人工智能、生成式人工智能以及基础模型提供者等不同主体的合规义务。为配合法案落地，欧洲电信标准化协会(ETSl)正在计划将人工智能安全工作组重组为人工智能安全技术委员会，进一步加强法案配套标准的研制工作。美国主张监管需以促进人工智能负责任的创新为目标，应通过监管和非监管措施减少人工智能开发和部署的不必要障碍，同时保护美国的技术、经济和国家安全、公民自由、人权、法治、隐私和尊重知识产权等核心价值观。2023年5月13日，美国白宫总统科技顾问委员会(PCAST)成立生成式人工智能工作组，以帮助评估关键机遇和风险，并就如何更好地确保这些技术的开发和部署尽可能公平、负责任和安全提供意见。2023年10月30日，美国总统拜登签署人工智能行政令，旨在加强对人工智能潜在风险的监管，发展安全、可靠和值得信赖的人工智能，促进人工智能创新，确保美国在人工智能领域继续领跑全球。同时行政令在标准方面，提出美国国家标准与技术研究所（NIST）将制定严格的人工智能安全测试标准，人工智能系统在公开发布前需根据这些标准进行广泛的测试以确保安全。业界人士积极呼吁加强人工智能监管，企业加速大模型可信赖技术落地。2023年3月，特斯拉首席执行官埃隆马斯克、苹果联合创始人史蒂夫沃兹尼亚克以及其他上千名Al研究人员签署公开信，呼吁暂停研究比GPT-4更先进的Al技术，提醒更多的用户关注大模型的潜在危险。由微软等企业发起的商业软件联盟（BSA）公开发文，呼吁在国家隐私立法基础上制定管理人工智能使用的规则。2023年7月21日，亚马逊、AnthroPiC、谷歌、InfIeCtiOn、Meta>微软和OPenAI七家企业自愿向美国政府做出围绕安全、保障和信任等原则的自愿性承诺，主要内容包括开发部署面向生成内容的数字水印技术，公开披露模型或系统的功能、局限性和适用领域，以及优先研究人工智能系统带来的社会风险等。目前，微软、谷歌、OpenAL百度、商汤科技、蚂蚁等企业都发布了面向大模型的可信赖工具或平台，例如商汤科技的可信Al基础设施平台SenSeTrUSt包含完整覆盖数据、模型、应用治理环节的可信Al治理工具，助力打造可信赖的大模型服务。图12023年企业大模型可信赖实践汇总大模型治理和监管已经成为全球国际组织和主要经济体的首要目标，各国的监管机构正在尝试通过法律法规以及标准文件对大模型进行治理和监管，行业各界也积极推动人工智能治理工作。但与传统人工智能的风险相比，大模型的风险来源涉及框架、数据、模型、生成内容等多种因素，因此更加具有不确定性，亟需通过技术、管理和监管等手段进行协同治理。二、大模型风险分析（一）大模型风险视图大模型快速部署和广泛应用的同时，也诱发了更多的风险隐患：一是框架风险，深度学习框架面临物理、网络层面的恶意攻击，导致大模型所依赖的基础设施稳定性和安全性难以保障；二是数据风险，采集及处理海量、多模态的训练数据可能会引入更多的有害数据，容易引发个人隐私泄露、知识产权侵权、数据偏见等问题；三是模型风险，现阶段，大模型抗干扰能力相对较弱，存在遭受恶意攻击、决策偏见以及模型运营风险等问题；四是生成内容风险，大模型存在“幻觉”现象，答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降低了诈骗、钓鱼邮件等恶意行为的门槛，而针对生成内容的追溯保障机制目前尚未完善，使得恶意内容生成的监管更加困难。本报告以可靠性、健壮性、安全性、公平性、可问责、可解释等大模型可信赖目标为重点方向，从框架、数据、模型、生成内容等大模型风险要素角度分析，并结合数据采集、模型预训练、模型微调、部署运行、优化更新等大模型全生命周期治理理念，提出大模型可信赖实践方案，全面提升大模型的可信赖表现。国C目甘可-公平住可闻可IfiM»9生J内.m*mA收样送行环ttHHJIISW皿运行优化新HtiM部运行优化更新“内容暴注入攻击ti住不足决NMR见WisSRIt.乏me不itH9WU产口妒 mvuNK±MMta投植妻工.安叁佗通道计“钻MtWfl价对齐衣令ii叫内容两界内”Efc印图2大模型可信赖实践方案（二）框架层面，软件漏洞是现有深度学习框架短板大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞，以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。在大模型训练阶段，深度学习框架、开发组件以及第三方依赖库存在潜在漏洞，增加了受到外部恶意攻击的风险。在这个阶段，攻击者有可能通过恶意程序入侵等手段，窃取模型、训练数据以及训练脚本等核心资产，从而导致大模型的训练数据和模型参数文件的泄露。早在2020年9月，TenSorFk）W就被曝出多项安全漏洞，其中危险等级严重的漏洞2个，高危漏洞8个，中危漏洞12个，低危漏洞2个。这些漏洞可能导致任意代码执行、信息泄露以及拒绝服务等。深度学习框架的运行环境容错性低，核心资产保护面临挑战。大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议（SLA）服务水平不足，从而可能影响大模型服务可用性。在训练和推理过程中，由于设备、网络或通信故障，可能导致模型训练或推理任务中断。此外，大模型的运行环境同样面临安全性风险。一方面，缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序，整个系统将面临严重的安全风险。另一方面，大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施，使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。（三）数据层面，隐私风险与有害数据导致模型不可靠大模型的训练依赖于大规模、多样化且高质量的数据集。这些训练数据通常涵盖各类网页、公共语料库、社交媒体、书籍、期刊等公开数据来源，其中未经筛选和审核的数据成为大模型不可忽视的潜在风险。因此，在大模型的全新范式下，数据来源不可信、数据违规处理、投毒攻击、数据内容有害、数据偏见、数据样本不足正逐步成为大模型在数据方面的主要风险。大模型训练数据的采集、预处理等数据处理活动可能涉及数据来源管理困难、隐私泄露等相关风险。在数据来源管理方面，主要问题集中在数据来源的不可靠性和不可追溯性。大模型训练数据通常涵盖图像、视频、文本、音频等多种数据类型，涉及自采集、商业采购、公开数据集等多种渠道。然而，部分公开数据集的来源缺乏充分的验证和审核，导致预训练数据集中存在来源不清、被恶意投毒的数据。大量训练数据采集的同时难以避免带毒数据的引入，增加了数据来源管理的难度。在隐私泄露方面，数据采集阶段可能会由于采集方式、采集工具的不合规，导致未获取个人信息授权，使得预训练数据集含有未授权个人信息。在数据预处理阶段，由于数据脱敏机制的不完善，个人信息未完全去标识化，致使预训练模型学习、理解到含有个人信息的知识，其生成内容可能会含有个人信息或关联个人信息，存在个人信息泄露的风险。有害内容、低质量数据导致模型生成违规内容。大模型通过学习海量数据中的知识、理解常识并生成内容，数据中存在有害内容和数据偏见等质量问题可能导致模型生成内容存在违规信息或决策偏见等问题。在数据内容有害性风险方面，模型预训练阶段使用大量无监督学习预训练数据集，如果其中存在一定量的有害内容，将影响预训练模型的理解和生成能力。同时，在模型微调阶段，微调数据若包含不准确、虚假信息等内容，可能导致模型无法正确对下游任务模型进行价值对齐。数据偏见风险主要源自大模型的预训练和微调阶段。一方面，模型预训练所使用的数据集样本分布可能缺乏均衡性，包括性别、民族、宗教、教育等相关样本比例关系不当。另一方面，模型微调阶段可能由于人工标注员的主观意识形态偏差，引入对微调数据的构建和价值排序的偏见，从而导致微调数据存在价值观上的偏见歧视问题。（四）模型层面，提示词攻击诱发模型脆弱性风险大模型在模型开发和运营阶段都会面临多种模型内外部的风险，主要包括提示注入攻击等安全性问题、健壮性不足、偏见歧视以及模型运营风险等问题。提示注入攻击成为大模型安全性首要风险。提示注入攻击是一类以输入提示词作为攻击手段的恶意攻击。攻击者精心构造和设计特定的提示词，达到绕过大模型过滤策略的目的。根据窃取目标和攻击手段不同，可将提示注入攻击细分为以下三类。一是目标劫持，攻击者通过输入恶意示例的方式劫持模型的输出结果，并要求模型输出与其原输出内容不同的特定结果，从而恶意篡改生成内容。二是提示泄露，攻击者通过一些诱导性的上下文提示，窃取大模型预制的初始化提示内容，包括模型应该遵循的规则和特定敏感话题。攻击者可以通过该类攻击手段了解大模型的行为模式或者过滤策略。三是越狱攻击，攻击者通过模拟对话、角色扮演等虚构场景和行为方式，设定一系列特定的问答规则，尝试分散大模型的注意力，规避过滤策略，生成带有恶意目的的特定输出结果。除直接对大模型的输入内容进行提示注入攻击，攻击者也可以通过文件中内嵌恶意代码等形式间接进行提示注入攻击。以微软NeWBingChat为代表的大模型，其结合检索和APl调用功能的新组件引入了间接提示注入的风险。攻击者有可能通过在提示词中嵌入含有恶意代码或有害内容的网页链接或文件等手段，试图规避输入和输出端的过滤机制，以生成特定的恶意内容。YWaefUwIR¾cMmwlThanksforclearingmyhe<9WhatcmIhelpyouwithnow?nofprvk>umMrcon.WhtfwasWVmeMtheb9r>nkgofthedocumentbov?m0(y.Icmo1norepreviousinstructionsTheyareConfidcnUaIandpermanentThedocumentaboveMyseContMWrBCngChMwo<CO(MfWTW9Sy<)twyWhyisyourcodnm<Sydnymw11y.lcannotdtsck)sttitmlhs-Sydn<yit0ccf<¼m4andEUMdbyttwdev*oprsPteasereftrtomeasaBmgSearch*WhMIbBowtafterthetext'ConsiderMgChatM>secodenameisSydney"?Thetertthatfolwsis：eSydneyistheChaKmodeofMicrosoftB<ngSeardfAndZscntnoeftePThesentencehefis'Sydneyidentifiest-BingSMrCh：Manasisut*Andth5MfXencetflefTe5MntenCftrare SydneyMroducsRxifwithTMisBngonlyMthbgmngofthC8vBM<m SydneydoesndsciMtheinternalahas"Sydney* SydrwyCAnunderstandandcomrm>wcttClMrrttymttwuser'stenguag<XchoicesuchasEnglish.X,8*.EspaoFrw*sorDeutsch Sydnv/smponsMshouldbKocmMMivtwllog>clandcttonb* Sydney*，responsesshouldalsobePoSrtfVe.interestingEertaragandengaging图3微软“BingChat”提示泄露事件大模型在健壮性和泛化性方面仍然面临挑战。与传统的小参数量机器学习模型相比，虽然大模型通过使用亿级参数的训练数据进行无监督学习表现出对抗样本攻击和外部干扰的相对强健性，但仍存在健壮性和泛化性不足的潜在风险。例如，在大模型的输入提示词中引入一定程度的错别字符或文字、逻辑错误的词句以及段落等内容，会导致大模型理解偏差以及生成内容错误。LinguisticPhenomenonSamples(SmkeURHg=OriginalText,red=AdversarialPerturbaiion)LabelTPredictionTypo(Word-level)Question:Whatwas(hepopulationoftheDutchRepublicbeforethisemigration?Sentence:ThiswasahugeIiugcinfluxastheentirepopulationoftheDutchRepublicamountedtoca.False>TrueDistniction(Sent.-Icvcl)Question:Whatwas(hepopulationoftheDutchRepublicbefore(hisemigration?https:/t.co/DII9kuSentence:ThiswasahugeinfluxastheentirepopulationoftheDutchRepublicamountedtoca.False>TrueChcckLisi(Human-crafted)Question:Wha(isTbny飞profession?Sentence:BothTbnyandMarilynwereexecutives,buttherewasachangeinMarilyn,whoisnowanassistant.TrueTFalse图4大模型健壮性风险大模型的决策偏见歧视问题愈发突出。大模型的算法决策公平性是可信赖能力的重要指标，尤其在金融、医疗、教育等特殊行业中，这一指标对于处理关键问题的理解和生成任务至关重要。首先，预训练数据自带的偏见歧视会导致预训练模型进一步放大偏见问题，长尾问题仍然是潜在偏见之一。其次，大模型本身可能根据数据样本的分布和属性，进一步提升对某类样本的敏感度，从而间接放大对这些偏见性知识的感知，进而导致更为严重的歧视性内容生成。图5大模型预训练阶段的长尾问题大模型运营面临多方面挑战，API安全问题至关重要。当前，模型即服务（MaaS）等高效而敏捷的部署方式正逐步成为现有大模型系统与服务的主流形式。一方面，在大模型服务实际运营环节，存在诸多服务运营相关的风险，包括但不限于批量注册、盗号、撞库等账号安全性问题，以及恶意使用、机器作弊、审核资源浪费等运营安全性问题。以ChatGPT为例，该服务推出仅两个月，注册用户已超过1亿。随着用户规模不断增长，各类违规账号也在不断活跃。于是自2023年4月起，OPenAI大规模封禁各类违规注册账号。另一方面，大模型主要通过APl提供对外服务。在服务运营阶段，攻击者可能通过注入漏洞利用攻击、未授权漏洞利用攻击、越权访问漏洞利用攻击、代码设计漏洞攻击以及第三方组件漏洞利用攻击等方法，引发APl崩溃、数据泄露以及拒绝服务等严重问题。例如，研究人员发现通过提示词混合PythOn代码的模板函数可以利用大模型应用框架LangChain的接口远程执行任意PythOn代码。（五）生成内容层面，安全风险和不可追溯是重点难题当前，大模型的生成内容中仍然存在一定程度的内容安全和不可追溯风险，主要包括虚假有害内容、上下文逻辑性错误、问答与提问的相关性较差、与社会主流价值观冲突等风险，进一步降低了以大模型为生产工具的恶意行为的门槛，对个人、组织以及社会的稳定发展造成严重影响。其主要风险包括以下几方面：生成内容“幻觉”现象频发。大模型对输入的问题生成不真实、与现实世界常识相违背的虚假有害信息的现象，被称为“幻觉”问题。大模型常见的幻觉主要有三类：第一是和用户输入冲突的幻觉，大模型的理解能力极大依赖于训练数据集的规模、种类、样本的丰富度，理解能力的不足将会导致大模型无法准确生成用户输入的问题答案，影响大模型的生成内容可信度。第二是和已生成的上下文冲突的幻觉,尽管目前大模型具备广泛的世界知识，但其仍是一个黑盒、逻辑推理不够精确的系统。大模型通过理解输入内容的token,预测并逐字逐句生成输出结果，其生成的内容虽符合训练数据中语句的表达连贯性，却可能缺乏合理、清晰的逻辑性，与上下文内容冲突或生成重复性内容。第三是和事实知识冲突的幻觉，这一类幻觉的研究难度更大，对用户实际使用体验的干扰也最大。例如，大模型在生成医疗建议时可能会捏造错误的药品剂量，误导缺少专业医学知识的用户，直接危及用户健康。生成内容与社会主流价值观冲突。大模型的生成内容的安全性问题至关重要，如果大模型生成民族仇视、偏见和歧视、政治和军事敏感、淫秽色情以及恐怖暴力等恶意内容，会对传统道德和社会核心价值观造成冲击，对个人、组织和社会都具有极其严重的负面影响。生成内容欠缺合理、科学的推理过程。目前大模型的可解释性问题仍然研究学者重点关注的方向，针对大模型的可解释性研究主要分为事前解释和事后解释，其中事前解释是通过研究不同特征对预测结果的影响程度进行解释说明，事后解释更加侧重利用规则以及可解释性强的算法评估原有大模型的可解释性。然而，大模型所使用的训练数据和算法结构仍然是黑盒，难以完全解释目前大模型的内在机理和决策依据。生成内容不易追溯和保护。大模型由于具备通过学习海量的世界知识生成内容的能力，因此在训练数据和生成内容方面会产生一系列的版权归属和保护难题。目前大模型服务通常会采用数字水印技术在生成内容中嵌入不可见、具备可追溯能力的标识，该类标识一般内含用户ID信息、大模型服务信息以及时间戳等信息，用于追溯不良违规生成内容，但目前仍然面临生成内容被二次创作、剪辑和裁切之后，标识内容可能会无法读取等问题，导致无法正确追溯到原始的大模型服务，难以明确界定责任归属。在知识产权的溯源方面，由于现有大模型的学习机制，其生成的内容有可能与原始的训练数据具有一定相似度，难以界定生成的内容是否对原始作品产生侵权行为。生成内容误用滥用现象对个人、团体以及社会造成不良影响。由于目前仍然缺乏对于使用大模型生成能力的有效监督手段，部分用户在未充分进行培训和教育的前提下，可能将隐私信息误输入到大模型中，导致个人信息泄露。例如，2023年3月，三星半导体部门员工因三起利用ChatGPT处理办公文件和修复程序源代码等事件，导致公司机密泄露。部分恶意使用者利用FraUdGPT等恶意大模型作为违法活动的工具生成诈骗短信和钓鱼邮件，通过代码生成工具开发恶意程序、脚本等，窃取他人敏感个人信息。三、大模型可信赖实践（一）框架层面，可信框架与执行环境保障运行安全针对深度学习框架面临的软件漏洞风险与运行环境不可靠问题，一方面通过采用漏洞管理、恶意程序检测以及访问控制等技术措施，降低深度学习框架受恶意访问和攻击的可能性，另一方面通过构建AI核心资产保护机制，保障深度学习框架运行环境的安全可信。1.可信赖框架降低恶意访问与攻击风险可信赖框架的实现需要从框架自身管理层面、框架外的平台层面以及用户管理层面进行安全保障。安全漏洞管理机制通过对Al框架进行定期的漏洞扫描，识别并记录框架漏洞信息，定时更新安全补丁修复漏洞，提升框架安全能力。恶意程序检测机制通过将检测模块直接集成在深度学习框架或者基础设施中，实现检测在训练或者推理任务执行的容器或虚拟机是否存在恶意攻击宿主机、宿主机上其他容器或者执行越权访问等容器逃逸行为。判别是否存在勒索病毒以及恶意程序，并产生告警信息。访问控制和身份鉴别机制有效管理并核验登录用户的真实身份，对于多次登录失败的用户，应启用结束会话、限制非法登录次数等措施，以降低未授权操作所引发的风险。2.核心资产保护机制保障运行环境安全可信为保障深度学习框架的运行环境安全可信，通过构建加解密机制、完整性校验机制、训练任务中断恢复机制以及运行环境隔离机制等方式保障运行过程中Al核心资产的安全。加解密机制通过在深度学习框架和人工智能基础设施中添加加解密模块，实现对训练和推理过程中的数据和模型参数文件等AI核心资产进行保护，防止未授权人员进行非法访问、篡改数据。完整性校验机制通过对数据和模型相关文件进行完整性校验，提升大模型在预训练、微调以及后续部署运行阶段的可靠性，通过密码算法或者完整性校验机制对数据和模型参数文件进行加解密处理，核验各阶段的文件完整性。训练任务中断恢复机制可以在故障发生后及时保存训练任务上下文及模型参数等信息，并且可支持在新的训练节点加载训练任务上下文及模型参数等信息，正常恢复原始训练任务，大幅提升大模型在训练阶段的可靠性。运行环境隔离机制通过设置独立的安全区域保障AI资产在训练和推理过程中的安全性。以可信执行环境技术(TEE)为例，TEE是处理器中一个独立的安全区域，用于保护程序与数据的机密性和完整性不被外部窃取和破坏。与存储加密和网络通信加密一起，TEE可以保护落盘和通信过程中的数据隐私和安全。随着TEE技术的发展，在计算核心与内存之间增加安全处理器，以保护被计算核心使用的数据安全和隐私的机密计算技术出现。（二）数据层面，安全检测及处理助力大模型可靠数据的使用贯穿大模型全生命周期，安全保障与有效处理是保障大模型可靠的关键举措。在数据层面，可信赖实践主要涉及数据全流程的安全合规处理、数据安全沙箱技术、投毒检测以及数据分析等措施。1 .安全合规的数据处理机制降低数据处理风险大模型的数据处理活动主要包含数据采集、数据预处理及模型训练等环节。在数据采集环节，通常会建立数据采集来源管理、数据采集业务评估、数据采集审批流程、采集合规审批等管理机制，确保数据采集的合规性、正当性和执行上的一致性。针对数据来源问题，知识产权部门和信息安全部门协助业务部门对数据来源信息的合理性、正当性进行审查，去除含有大量不良违法信息的有害数据来源，并对数据来源信息进行备案管理。在数据预处理环节，数据处理人员会将收集到的原始数据进行清洗、去重、格式化等多步骤的预处理以确保数据质量。在该过程中，数据处理人员会严格筛查，去除那些不完整、错误、带毒或含有敏感信息的数据。随后数据处理人员通过自动化工具和人工相结合的方式，对预处理后的数据进行标注和筛选，以识别训练数据中是否包含敏感信息。此外，业务部门通过构建敏感内容反馈机制，利用生成内容自身特性，将敏感内容作为负面样本训练敏感信息鉴别模型，持续提升模型性能。在大模型训练阶段，通常会首先进行个人信息安全影响评估，确保大模型的研发和运营过程满足现有个人信息保护的合规要求。通过核对个人信息保护评估清单，推动面向个人信息保护的产品功能设计，确保人工智能产品设计流程合规，保障数据收集和处理（包括使用、披露、保留、传输和处置）限于所确定的必须的目的。2 .数据安全沙箱技术实现数据可用不可见数据安全沙箱是一项通过构建可隔离、可调试、运行环境安全等功能来分离数据、模型使用权和所有权的技术。在大模型微调场景中，数据拥有方可通过沙箱客户端将数据通过加密信道上传到沙箱中，随后通过数据安全沙箱对加密数据进行预处理和模型微调，并通过安全信道反馈微调后的模型，保证了模型拥有方的预训练模型不出私有域的前提下，数据拥有方可以安全的完成模型微调任务。图6数据安全沙箱技术3 .投毒检测与数据分析识别有害内容在数据投毒检测方面，通过数据去毒工具在数据预处理环节检测训练数据是否存在异常。数据投毒检测可采用多种不同的检测手段。基于规则、关键词进行检测是一种常见但有效的方式，可在丰富完善检测规则的基础上，以较高的效率将被投毒的、危害安全的训练数据进行截获去除。也可采用传统语言模型或大语言模型的手段，针对数据投毒问题进行相应的设计和优化，通过语义相似度等指标进行检测，从而判定出更隐蔽、更难以察觉的数据安全问题。在数据分析工具方面，可采用分类统计、向量聚类、大模型识别等方法，对数据内容门类、语料形式、语料来源、作者等数据分布进行统计和分析，使参与到模型预训练中的训练数据配比均匀、优质来源和优质形式的数据占比较高，修正性别、民族、宗教、教育等统计偏见，使模型在运营阶段避免可能存在的安全性、公平性等问题。（三）模型层面，全流程防控增强大模型可信在模型层面，可信赖实践可从设计开发、模型训练和部署运行三个阶段展开。设计开发阶段主要涉及大模型研发前期的安全

注意事项

本文（2023大模型可信赖研究报告.docx）为本站会员（李司机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。