面向公共安全的数据挖掘理论和方法.ppt
面向公共安全的数据挖掘理论与方法,浙江大学计算机学院 2011.11,背景,纽约时报近日撰文介绍了美国“情报高级研究计划署”(IARPA)正在开展大数据研究的相关部署,以及其他相关方的观点。以下介绍其主要内容。社会科学家正在尝试挖掘因特网上的海量资源,包括Web搜索、Twitter消息、Facebook、博客、手机位置跟踪信息等。乐观的研究人员相信这些“大数据”将能够揭示人类行为的社会学规律,可以帮助研究人员预测政治危机、变革和其他社会与经济不稳定问题,正如物理学家和化学家预测自然现象一样。大型数据的可获得性和计算化已经促进了新统计技术和软件的出现,从而能够管理信息量高达数十亿条的数据集。美国麻省理工学院“集体智慧中心”的主任托马斯马龙(Thomas Malone)称这是一项巨大的进步,因为可以使用的数据信息更加详细,类别也更多,可以使用的预测算法也越来越多,从而有可能实现以前不可能进行的预测。,2,背景,美国政府对此表现出了兴趣。作为一个少为人知的情报部门,IARPA于2011年夏天开始向社会科学家和企业征求想法,以找到能够自动扫描21个拉丁美洲国家的“大数据”的方法。这个实验项目由IARPA资助,于2011年4月启动,为期3年。IARPA计划研发一套全自动化的系统,无需人的干预,可谓“天空中的数据之眼”(data eye in the sky)。这项研究将不局限于政治事件和经济问题,还将开发能够预测流行病、传染病等情况的能力。这种自动化的数据采集系统重点关注大量人口的通信、消费和移动方式,它将通过公共渠道获取数据,包括Web页面查询、博客文章、因特网数据流、金融市场指标、摄像头数据流、维基百科等。而美国国防部“高级研究计划署”(DARPA)则打算在阿富汗实现自动发现与暴乱相关的社会网络的目标。在最近的预算案中,美国国防部称这种分析能够通过跟踪恐怖分子的会议、训练、材料共享、资金流动等情况来找到他们。,3,背景,目前,只有零星的案例能够为这种社会媒体挖掘的价值提供支持。2010年惠普实验室利用Twitter的数据精确预测了好莱坞电影的票房收入。2011年8月,美国国家科学基金会(NSF)资助科研人员利用Twitter和Facebook等社会媒体来实时评估地震损害。雅虎实验室的主任称,作为一个正面案例,通过观察有多少人在检索“流感”来预测流感疫情的做法已被广为报道,但是这种做法和利用美国疾病控制与预防中心的数据相比并没有太大改进。麻省理工学院媒体实验室的一位计算机科学家表示,研究成果将能帮助人们更好地认识世界上正在发生的事情,以及地方政府如何处理这些情况。一些计算机科学家对于用Web搜索等指标来预测政治不稳定性的做法表示怀疑。另外有不少社会科学家和隐私权倡导者对这个项目持极端怀疑态度,并称美国五角大楼在9-11恐怖袭击之前开展的一项寻找潜在袭击份子的项目只留下了令人厌恶的回忆,隐私权倡导者还担心公共数据和相关技术可能被用于隐秘信息方面的行动。,4,需要对来自不同源头、不同类型数据建立起智能计算的理论和方法,4,所面向的处理数据,4,希望的结果,在什么时候(When)、哪里(Where)发生了什么(What),和谁(Who)相关?如何演化的(How)?,4,举例,哪里(Where)在什么时候(When)发生了什么(What),和谁(Who)相关?如何演化的(How)?,上图:加入User-Location 下图:只有Location信息,示例:与位置相关的Topic检测与呈现,沙漠,森林,海洋,4,目的,从一个方面而言,我们所要处理的空间由信息、行为与关系构成。我们需要研究围绕这些因素研究表达、理解和呈现等相关的理论、算法和系统。,Cyberspace,Reality,信息,行为,关系,4,目的,Cyberspace,Reality,表达,理解,呈现,从一个方面而言,我们所要处理的空间由信息、行为与关系构成。我们需要研究围绕这些因素研究表达、理解和呈现等相关的理论、算法和系统。,跨模态(Cross-Modality),不同类型数据及其相关属性被整合到一起,对所蕴含的语义进行表现,Feature Fusion(异构特征融合:向量、矩阵、张量、图)Dimension Reduction(高维特征降维:谱分析、流形学习)Heterogeneous Feature Selection(特征选择:注意力模型、关注度模型、稀疏表达)Cross-modal Metric Learning(不同类型特征进行相似度计算:典型相关系分析、多视角学习),“三”个“跨”,11,跨数据源(Cross-domain),不同来源的数据不均衡出现在不同来源站点,来共同表现语义,近似重复性检测(Near-duplicated detection)主题建模与结构属性提取(Geo-Topic Modeling):位置相关的主题检测、主题演化、主题结构化元素提取跨域与迁移学习(Cross-domain and Transfer learning):先验知识迁移,“三”个“跨”,跨空间(Cross Cyberspace to Reality),Cyberspace,Reality,相互影响,个体与集群行为分析(Individual and Crowd Behavior Analysis)复杂网络分析:影响力(Influence Analysis in Complex Network)网络空间与现实世界的映射规律,“三”个“跨”,内容1:跨媒体数据统一表示和建模机制,主要研究内容跨媒体基元提取:提取具有不变性的基元元素跨媒体关联性语义结构一致性描述:发现语义关联的异构特征之间存在的共享子空间跨媒体建模:高阶属性建模与动态演化机理跨媒体增量整合和高效索引:流式数据索引与层次化增量整合,13,15,供讨论的考虑异构特征的分析不同类型数据的分析对于语义关联的异构特征、不同类型数据的共享子空间(shared subspace)与共享结构(share structure)的提取跨媒体基元的定义与提取跨媒体数据的索引,主要研究内容跨媒体数据有效性辨识:辨识跨媒体数据中所存在的矛盾和不真实跨媒体数据重要性选择方法:建立跨媒体数据质量评估方法社会个体和群体交互机制:研究不同模式社会属性行为,建立社会关注度模型跨媒体数据与社会行为相互作用规律:研究网络跨媒体观点和事件传播机制,内容2:跨媒体属性感知模型与行为计算,供讨论的考虑数据真实性分析从基于视觉关注度模型的特征选择到基于社会关注度模型的数据选择基于近似重复性检测的跨媒体数据涌现与传播,内容3:跨媒体语义学习与内容理解,主要研究内容社会事件结构模式表示:构建事件结构化计算模型,建立主题与事件间结构化描述热点和敏感话题及重大事件检测:建立可计算通感模型,挖掘图像、网页、评注和标签之间关联性跨媒体语义单元学习:利用非线性回归模型和多核学习对自然属性和社会属性间关联关系学习基于群体智能的协同交互机制:研究个体和群体行为参与跨媒体语义理解的协同交互机制。,供讨论的考虑从传统主题建模(Topic Modeling)到结构化主题建模(Structured Topic Modeling)的突破发生了什么-哪里发生了什么(Geo-topic)?和谁相关?代表性的comments、图像、视频有哪些?传统主题建模仅处理文本数据-我们需要处理的是存在复杂关联的不同类型数据传统主题建模不考虑人的因素-我们需要考虑人们转发、评注等行为,内容4:海量跨媒体数据挖掘与公共安全态势分析,主要研究内容海量跨媒体数据高效处理:海量数据并行计算、大规模数据采样方法以及复杂度分析跨媒体数据关联挖掘:建立跨媒体数据关联关系全景谱图,挖掘与公共安全相关的模式和知识多尺度社会事件跟踪与演化:构建不同话题和事件在社会个体和群体交互下不断扩散和演化模型公共安全态势分析与预测:分析目前公共安全态势,预测未来公共安全事件和态势走向,供讨论的考虑结构化主题(Structured Topic Modeling)是如何演化的:什么时候开始,什么时候结束?结构化主题(Structured Topic Modeling)在不同尺度下是如何演化的?哪些结构化主题是关联的?大规模数据处理的问题,课题4:海量跨媒体数据挖掘与公共安全态势分析,内容5:跨媒体搜索与内容整合,主要研究内容:跨媒体搜索:研究支持从一种类型媒体检索另外一种媒体数据的综合检索方法问答式检索意图理解:实现对用户以文本和图像等跨媒体样例来表达检索意图的理解方法跨媒体排序与相关反馈:研究综合考虑热度、质量和内容等属性的排序方法跨媒体内容整合:以类比和联想等手段,对跨媒体数据进行合成和多粒度表示,供讨论的考虑不同类型数据之间的度量分析来源不同跨媒体数据的跨域检索与排序检索行为的理解如何对数据更好整合(计算答案与无中生有),内容6:面向公共安全的跨媒体呈现与验证和示范平台,主要研究内容:社会事件因果推演与可控仿真:基于因果推断,析取演化过程中重要因素和决定性阈值,建立仿真环境 跨媒体呈现:以时间轴为核心,按照空间地理索引,对事件和话题进行呈现公共安全快速预警与决策支持:基于历史范例,评估公共安全事件以及为预案制定提供依据面向公共安全的综合验证和示范平台:建立综合验证和示范平台,对项目内容进行验证和示范,供讨论的考虑在某一结构化主题演化过程中,什么因素在演化的什么阶段扮演了重要角色:哪些数据、哪些人和哪些行为起到了什么作用?一个结构化主题(Structured Topic Modeling)是如何演化成为另外一个结构化主题的(Non-parametric Bayesian model for causal inference)在已经知道各个因素之间相互关系基础上,给定一个结构化主题,如何进行仿真和推演?如何进行呈现:Where+When+What+How,