第4章 非结构化数据的处理ppt课件.pptx
《第4章 非结构化数据的处理ppt课件.pptx》由会员分享,可在线阅读,更多相关《第4章 非结构化数据的处理ppt课件.pptx(31页珍藏版)》请在三一办公上搜索。
1、 做中国领先的科研资源提供商,第四章 非结构化数据的处理,大数据处理配套课件,总课时:4小时(实验:3小时),提纲,非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术,什么是非结构化数据,相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。,绝大部分数据是非结构化数据,世界上85%的数据都是非结构化数据,这些数据每年都按指数增长60%。,非结构化数据处理的技术,非结构化数据处理的主要技术是自然语言处理技
2、术。用来对非结构化数据进行各种层次的理解。,自然语言处理技术,我要去清华大学,从西直门怎么走?,学院路堵不堵?,为什么我上个月已退了GPRS,这个月还扣我钱?,服务:路线查询起点:西直门终点:清华大学,服务:路况查询地点:学院路,服务:客服投诉业务:GPRS诉求:错误扣费,提纲,非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术,自然语言的概念,什么是自然语言语言是人类交际的工具,是人类思维的载体人造语言:编程语言,包括C+,BASIC等 世界语自然语言:形式:口语、书面语、手语语种:汉语、英语、日语、法语语言学是研究语言规律的科学,网络语言,“昨晚,我的JJ带着他的青蛙BF到我家
3、来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP,说她年轻的时候一定是个漂亮MM,那酱紫真是好BT,7456”,JJ:姐姐 酱紫:这样子 BF:boy friend青蛙:长相不好的男朋友 PMP:拍马屁MM:妹妹BT:变态7456:气死我了,语言的构成,自然语言处理的层次,语音分析:从语音流中区分出一个一个声音单元-音素词法分析:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。语义分析:识别一句话所表达的实际意义。语用分析:研究语言所在的外界环境对语言使用所产生的影响。,语义与语用,同一词语在
4、不同的“语境”中具有不同“语义”例如:中国奥运史上十大女杰的精彩“转身”病毒 计算机领域:计算机病毒医学领域:生物学病毒,自然语言处理的概念,自然语言处理(Natural Language Processing,NLP)也称自然语言理解或计算语言学;主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的发现、提取、存储、加工与传输。NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。计算语言学是从计算角度处理语言将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示。,自然语言理解的困难,自然语言具有多样性(不同语种、不同地域、不同人群
5、)自然语言具有进化性自然语言的模糊性自然语言的歧义性 处理歧义问题是NLP的核心问题。自然语言处理过程就是各种歧义现象的消解过程。,自然语言理解的困难,机器能够理解人的语言吗?,很难!什么是理解?结构主义:机器的理解机制与人相同(白盒)问题:人类语言理解机理尚未清楚功能主义:机器的表现与人相同即可(黑盒)图灵测试如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能,理解自然语言的准则,给计算机输入一段自然语言文本,如果计算机能问答(question-answering)机器能正确地回答输入 文本中的有关问题;文摘生成(summarizing)机器有能力产生输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 非结构化数据的处理ppt课件 结构 数据 处理 ppt 课件
链接地址:https://www.31ppt.com/p-2133497.html