海量非结构化信息智能化处理ppt课件.pptx
《海量非结构化信息智能化处理ppt课件.pptx》由会员分享,可在线阅读,更多相关《海量非结构化信息智能化处理ppt课件.pptx(54页珍藏版)》请在三一办公上搜索。
1、海量非结构化信息智能化处理,施水才北京拓尔思信息技术股份有限公司总裁2019年1月6日 北京,中国非结构化数据管理高峰论坛(CUDMS 2019),提要,大数据管理的新挑战海量非结构化信息智能化处理的关键技术和典型应用中国非结构化信息处理软件的市场概况TRS 非结构化数据管理和智能化处理系统TRS 海量非结构化信息智能化处理成功案例,一、大数据管理的新挑战,一、大数据管理的新挑战,从互联网服务到企业信息化从各取所需到集成和融合统一建模从管理数据到理解和分析内容,大数据管理的新挑战-从互联网服务到企业信息化,互联网服务,企业计算,新一代企业计算,推动了数据分析及非结构化信息管理的技术突破Hado
2、op架构提供了巨大的可扩展性和灵活性优势朝云服务方向发展,但是并不适合很多企业计算环境对非结构化信息本身的理解非常有限,成本可维护性对业务的支持内/外 一体化,封闭的数据库世界有限的非结构化数据管理能力缺乏低成本可扩展性,在企业级计算中部署大数据管理技术是一种趋势,但仍需时日,一体机和通用平台之争,大数据管理的新挑战-从各取所需到集成和融合统一建模,目前解决结构化数据和非结构化数据统一处理的方法的机制并不完善,缺乏形式化支持,文件系统,SQL,NoSQL,X?,SQL 的传统主导地位互联网企业的反SQL文化未来的企业级平台是否能统一?,IBM,Oracle,Microsoft 都在致力解决这个
3、问题,大数据管理的新挑战-从管理数据到理解和分析内容,虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义目前海量数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,目前所有大数据管理的解决方案没有解决语义计算的基本问题:理解内容,二、海量非结构化信息智能化处理的关键技术和典型应用,海量非结构化信息智能化处理关键技术,分类和聚类,信息抽取,基于语义的检索,关联关系挖掘,情
4、感计算,可视化展现,跨媒体融合,多媒体内容理解,个性化推荐,语义智能计算,短语级的语义计算相似短语、相关短语的计算实体、要素间的关联关系挖掘实体的情感分析词语级的聚类分析。例:标签聚类短语级的比对分析等。例:姓名、出生日期、学历、地址、单位名称等篇章级的语义计算同语种、跨语种的相似文本计算(例:文章转载报道、文章消重等)文本自动分类、文本的聚类分析句子、篇章级的情感分析篇章级变异信息的识别与比对(例如:篡改),自动分类,关键点统计与规则相结合的混合分类引擎分类体系的科学化基于中文新闻信息分类体系的分类模板构造支持多语言混合分类难点针对差异化对象数据,模板参数的合理化设置分类模板的反馈学习机制提
5、供较实用的分类可信度评价指标,供应用参考,关键词标引与自动摘要技术,关键点基于位置、频度和背景词库等多维度的标引和摘要引擎行业词典支持词性、短语类型、长度、特殊符号标识基于关键句的权值运算与筛选的摘要策略关键词驱动的偏重摘要难点基于语义的隐含标引,命名实体识别,关键点实体识别算法+工程应用行业知识库支撑基于行业应用场景的实体识别机制(公文、案件、物品等)难点绰号、网名、小名、笔名、艺名、指标名称 同名排歧人物多重社会角色分析,实体关系的抽取,关键点语境、上下文关系分析关系引擎构建面向行业的主题词典角色关系词典与RDBMS结合的联动挖掘难点类属关系识别(粮食:大豆)隐含关系发现(股东关系)关系链
6、深度、广度挖掘基于图论的可视化关联展示,信息抽取实例,人物关系挖掘实例,自动过滤与自动消重,关键点垃圾广告信息的识别(群发)转载文章相似度比对技术不同阈值的相似文章聚合变异信息的识别与比对(篡改)难点千万级数据消重的亚秒级响应机制违规非法内容的判定与识别跨语言的新闻信息转载识别,话题检测与追踪技术,关键点海量信息片段的聚合机制话题相关度运算难点基于遗忘因子机制的话题演化跟踪敏感话题的及时发现,情感分析,关键点主观情感色彩语句、要素识别倾向性语义模型库的构建语义倾向性词典的倾向强度划分情感持有者、情感极性与情感对象的关联判定难点复句的句法逻辑与情感词汇的潜在情感极性判断(并列复句、转折复句、条件
7、复句、递进复句等)语气、语境与情感词汇融合的情感分析(否定句、感叹句、疑问句),多媒体标注和检索,图像检索音频识别、分类和检索视频摘要、字母提取跨媒体检索,20,大规模挖掘的技术趋势,分布式大规模挖掘,解决性能问题动态样本学习,不断优化语义规则和统计模型,确保精度的稳定和持续提高,海量非结构化信息智能化处理典型应用,企业搜索,知识管理,搜索引擎,内容管理,舆情分析,社交网络,电子商务,三、中国非结构化中文信息智能应用软件市场概况,研究范围,中文信息智能应用是指用计算机对中文信息进行智能分类、存储、搜索、发布、监测等处理和应用。非结构化中文信息智能应用对象为非结构化的中文文字信息,不包括音频、视
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 结构 信息 智能化 处理 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2125545.html