《《数据标注工程》第二章数据采集和清洗课件.pptx》由会员分享,可在线阅读,更多相关《《数据标注工程》第二章数据采集和清洗课件.pptx(14页珍藏版)》请在三一办公上搜索。
1、大数据应用人才培养系列教材,数据标注工程,大数据应用人才培养系列教材,3.1 图像标注,第三章 数据标注分类,3.1.1 什么是图像标注,图像标注问题的本质是视觉到语言的问题,用通俗的话来说,就是“看图说话”。这就好比我们小时候在做看图说话题目一样,同理,我们也希望算法能够根据图像得出描述其内容含义的自然语句和自然语言。但是,这对于小朋友来说小事一桩的小儿科级工作,对于计算机视觉领域来说,却是一个不小的挑战。因为图像标注问题需要在两种不同形式的图像信息到文本信息之间进行“翻译”才行。,3.1 图像标注,第三章 数据标注分类,3.1.2 图像标注应用领域,我们把一副1818像素的图片当成一串32
2、4个数字的数列。为了更好地操控我们输入的数据,我们不妨把神经网络扩大到324个输入节点。第一个输出预测图片是“6”的概率,第二个则输出预测不是“6”的概率。也就是说,这样我们就可以依据多种不同的输出,应用神经网络把要识别的物品进行分组。 先对大批的“6”和非“6”图片进行标注,相当于我们明确告诉它我们判定为“6”的图片是“6”的概率是100%,不是“6”的图片其概率为0;对应的非“6”的图片,我们明确告诉它我们输入的图片是“6”的概率为0,不是“6”的概率是100%。 我们可以利用计算机用几分钟的时间来训练这种神经网络。完成之后,我们便可以得到一个有着很高的“6”图片识别率的神经网络。,3.1
3、 图像标注,第三章 数据标注分类,图像标注应用领域划分,大数据应用人才培养系列教材,3.2 语音标注,第三章 数据标注分类,3.2.1 什么是语音标注,一般来说,语音标注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图APP上的小麦克风功能,或者京东客服里的直接说出问题,JIMI对应解决等功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点去修正语音和文字间的误差。这就是语音标注。,3.2 语音标注,第三章 数据标注分类,3.2.2 客服录音数据标注规范,1,4,2,5,6,3,确定是否包含有效语音,确定语音的
4、噪声情况,确定说话人数量,语音内容方面,确定是否包含口音,确定说话人性别,大数据应用人才培养系列教材,3.3 文本标注,第三章 数据标注分类,文本标注其实是一个监督学习问题。我们可以把标注问题看作是分类问题的一种推广方式,同时,标注问题也是更复杂的结构预测问题的简单形式。标注问题,其输入是一个观测序列,其输出是一个标记序列护着状态序列。标注问题的目的是学习模型,使该模型能够对观测序列给出标记序列作为预测。需要注意的是,标记个数是有限的,但其组合缩成的标记序列的个数是依照序列长度呈指数级增长的。 作为最常见的数据标注类型之一,文本标注是指,将文字、符号在内的文本进行标注,让计算机能够读懂识别,从
5、而应用于人类的生产生活领域。,3.3.1 什么是文本标注,3.3 文本标注,第三章 数据标注分类,3.3.2 文本标注应用领域,客服行业。主要集中在场景识别和应答识别。以不少电商平台的智能客服机器人为例,当用户在购物遇到问题,人工智能将根据用户的咨询内容切入到对应的场景里,根据用户的具体问题,给出对应的回答。金融行业。线上平台标注和线下表格标注,是金融行业文本标注主要的标注形式。一般,出现错误的情况,被称作“badcase”。打个比方,当用户问信用卡怎么办理的时候,机器人回复的却是储蓄卡的办理流程,这就是出现了badcase”。医疗行业。对自然语言进行标记处理,需要专门的医学人才才能进行。首先明确每个词的属性,即每个词在这种语境下面具备怎样的属性。然后标注每个词在句子中的作用。举个例子,患者主诉为:腰痛2年,伴左下肢放射痛10日余。,大数据应用人才培养系列教材,1数据标注有哪些分类?请简要概括。2你怎样理解图像标注的概念。3图像标注有哪些具体应用。4你怎样理解语音标注的概念。5语音标注的规范有哪些?请详细论述。6你怎样理解文本标注的概念。7文本标注有哪些具体应用。,习题:,AIRack人工智能实验平台一站式的人工智能实验平台,DeepRack深度学习一体机开箱即用的AI科研平台,BDRack大数据实验平台一站式的大数据实训平台,
链接地址:https://www.31ppt.com/p-1623412.html