欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    人工智能数据处理活动概述.docx

    • 资源ID:5669858       资源大小:15.28KB        全文页数:2页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    人工智能数据处理活动概述.docx

    人工智能数据处理活动概述A.1人工智能数据概念和分类本文件所述人工智能数据包含人工智能系统全生命周期中通过收集得到的原始数据和开发、运营过程中产生的新数据。根据生命周期阶段不同、数据形态不同、是否有数据标签、数据收集方式不同,可以对人工智能数据进行多种分类。依据人工智能系统生命周期阶段的不同,人工智能数据包含源数据、开发数据和运行数据。源数据是在数据准备阶段通过数据收集和数据加工获得的数据,包含原始数据、数据标签、训练数据、验证数据、测试数据等。原始数据直接来自于数据收集;数据标签是通过人工或自动化方式对原始数据所做的数据标注结果文件;训练数据、验证数据、测试数据是通过对原始数据和数据标签进行数据预处理而获得的数据,用于人工智能模型训练和模型效果的验证。开发数据是在人工智能模型开发阶段获得的数据,包含特征数据、模型参数、模型文件等。特征数据是使用算法提取的训练数据的关键信息;模型参数是对人工智能模型设定的参数数据,例如深度神经网络结构等;模型文件是以文件形式存储的人工智能模型。运行数据是在人工智能模型运行阶段获得的数据,包含实例数据、模型输出等。实例数据是人工智能模型运行的输入数据,来自于运行阶段的数据收集和加工;模型输出是模型对实例数据进行识别和预测的结果,例如人脸识别结果等。依据数据形态不同,可将人工智能数据分为视频数据、图像数据、文本数据、语音数据等非结构化数据以及字符、表格等结构化数据,人工智能数据处理者根据人工智能应用业务需求选择具体形态的数据进行使用。依据数据是否有标签,可将人工智能数据分为有标签数据和无标签数据。有标签数据一般用于人工智能开发中的监督学习任务,例如文本分类;无标签数据一般用于人工智能开发中的无监督学习任务,例如图像生成。依据数据收集方式的不同,可将人工智能相关数据分为开源数据、外部采购数据、真实环境采集数据、业务回流数据。开源数据是权威组织或个人收集整理并提供公开下载的数据;外部采购数据是从外部采购的非公开成品数据或定制化数据;真实环境采集数据是组织或个人通过人工或系统从真实环境采集到的数据,该类数据一般具有私有属性和保密要求;业务回流数据是在真实运行环境下模型推理之后的用于模型更新迭代的运行数据。A.2人工智能数据处理活动如图A.1所示,人工智能数据处理活动主要包括以下环节:a)数据收集:本阶段主要涉及数据主体的数据收集知情同意与授权流程以及数据处理者的数据获取和数据清洗流程,数据处理者会根据模型训练任务需求,获取数据收集授权,并根据任务需求使用直接收集、互联网公开获取、外部采购等收集方式或委托数据收集服务商(受委托方)进行委托收集。如涉及后续模型更新需求,还应考虑收集模型更新任务所需的业务回流数据。同时数据处理者应针对数据收集活动进行监控;b)数据传输:本阶段覆盖整个人工智能数据全生命周期,主要针对数据处理者和受委托方在所有数据处理活动中的数据传输安全要求,并针对数据传输活动实施监控;c)数据存储:本阶段主要涉及数据处理者对于训练、验证数据集的存储要求以及受委托方在临时存储收集数据和标注结果数据时的安全要求,主要包括架构设计、模型设计、数据副本、数据归档、数据留存和存储加密等;d)数据加工:本阶段主要涉及数据脱敏和数据标注流程,数据处理者会根据任务需求,将数据进行脱敏,并将经过脱敏处理的数据委托内部数据标注团队或数据标注服务商(受委托方)进行数据标注,在数据标注流程中应考虑标注人员资质、环境、审查、质检等安全要求;针对金融或医疗等特殊行业,可根据实际业务需求,采用密文计算或数据溯源技术进一步提升数据加工活动安全性;e)数据使用:本阶段主要涉及模型训练、模型部署以及系统运行时的训练数据集、验证数据集和测试数据集等原始数据、模型训练时的梯度数据以及用于维护更新的业务回流数据的安全要求;针对对抗攻击等外部恶意攻击,可采用模型防御手段增强模型,保护模型参数与训练、推理数据;f)数据提供:本阶段主要涉及数据跨域或跨组织的传输需求。因业务需求需向组织内部或外部数据处理者(包含境内和境外数据处理者)提供数据时,数据处理者应考虑在数据提供之前进行个人信息安全影响评估,并应考虑将个人信息提供的目的,接收方身份、接收方数据安全能力、数据类别、可能产生的影响等相关信息单独告知数据主体,并应在提供前征得数据主体单独书面同意。如涉及跨境传输等数据提供需求,数据处理者还应进行数据跨境安全影响评估。g)数据公开:本阶段主要涉及数据发布或在线访问等公开需求。因业务需求需向社会进行数据公开时,数据处理者应考虑明确公开内容、范围、应急处理制度等。h)数据销毁:本阶段主要涉及数据主体的数据删除权益、数据处理者在模型退役下线时的数据删除、归档处理以及受委托方在委托处理任务交付后的数据删除处理等环节的安全要求,同时应考虑存储介质的销毁处理策略。

    注意事项

    本文(人工智能数据处理活动概述.docx)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开