大数据与人工智能概论ppt课件.pptx
大数据与人工智能概论,Outline,Introduction to Data Science (Big Data) &. Artificial IntelligenceOn Big DataOn Artificial IntelligenceLandmarks of AI DevelopmentData &. IntelligenceHow AI Benefits the WorldCase Study I: Food SafetyCase Study II: Manufacturing ProcessCase Study III: Automated DiagnosisCase Study IV: Financial Risk DetectionCase Study V: EducationHow AI Challenges the WorldLabor StructureSocial EthicsDiscussion,Introduction to DS &. AI,什么是数据?,数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。,数据是可定量分析的记录。,什么是大数据?,大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。,4V:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。,大数据所代表的是当今社会所独有的一种新型的能力以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。,大数据发展的三大趋势数据总量数据形态数据组织,大数据时代的三大特征数据外部化人工智能价值,什么是数据挖掘?,数据挖掘就是从数据中发现知识的过程。但与第一性原理不同,数据挖掘不是从基本参数和公理体系出发,而是直接从数据中得到知识。数据挖掘的可信度不如第一性原理,但是能够处理更加复杂的系统。最近,两者有相互结合、互为补益的趋势。,第一性原理,数据挖掘,两者的结合,Schmidt, M., & Lipson, H. Distilling free-form natural laws from experimental data. Science 324 (2009) 81-85. Rudy, S. H., Brunton, S. L., Proctor, J. L., & Kutz, J. N. Data-driven discovery of partial differential equations.Science Advances 3 (2017) e1602614.,能挖掘出哪些东西?,发现数据项之间的相关关系,将数据对象聚成不同的类别,将数据对象分成不同的类别,预测缺失数据或者未来产生的数据,数据挖掘的能耐还不仅于此,它还可以用于检测异常、发现因果关系甚至与人博弈在AlphaGo战胜李世石的算法中,数据挖掘也做了相当的贡献。,Silver, D., et al. Mastering the game of Go with deep neural networks and tree search.Nature529 (2016) 484.,支撑决策,通过数据挖掘,教育水平和教育效果能够得到大幅度提高,学者搜寻最新科学论文的时候,也在接受基于数据挖掘的文献推荐。尽管数据挖掘已经产生了巨大的社会经济价值,但这比起它能够产生的价值而言,是微乎其微的!,能产生什么价值?,优化生产,提升销售,改善生活,什么是人工智能?,如果一台机器能够与人展开对话(通过电传设备),并且会被人误以为它也是人,那么这台机器就具有智能。A. M. Turing, Computing machinery and intelligence, Mind 59 (1950)433.,人工智能致力于使机器智能化,智能化是衡量实体在特定环境中反应和判断能力的定量指标。The WorkshopatDartmouth College, 1956.,让机器做本需要人的智能才能够做到的事情的一门科学。M. Minsky, The society of mind (New York, Simon and Schuster, 1986).,智能是对符号的操作,而最原始的符号对应于物理客体。H. A. Simon, The sciences of the artificial (Cambridge, MIT Press,1969).,人工智能的诞生和发展,PrenatalRene DescartesGottfried Wilhelm LeibnizCharles BabbageBorn (1930s-1950s)John von NeumannAlan TuringGolden years (1956-1974)The first AI winter (1974-1980)Boom (1980-1987)The second AI winter (1987-1993)Technical Breakthrough (1993-2013)Deep LearningBig DataGolden boom with bubble (2013-),Recent Landmarks,Data &. Intelligence,D. Silver, et al., Mastering the game of Go with deep neural networks and tree search,Nature529 (2016) 484.D. Silver, et al., Mastering the game of Go without human knowledge, Nature 550 (2017) 354.,Ultimate Intelligence,How AI Benefits the World,基于机器学习的食品风险靶向抽检,基于机器学习的食品风险靶向抽检,基于机器学习的食品风险靶向抽检,智能制造中潜藏的大问题:配件加工管理,刀具失效:如何判定? 刀具加工工艺(如铣、削、钻)在汽车、飞机和模具制造中应用广泛。刀具在加工过程中受两方面主要主要载荷:1)因高速旋转而产生的离心力;2)与加工件接触而产生的切削力。刀具在加工过程中随着加工时间的增加,自身的磨损程度也随之增加。当磨损量达到一定程度时,甚至还会出现断刀、崩边等严重磨损现象,进而导致刀具失效。在缺乏有效的刀具磨损监控、预测方法时,刀具磨损不但会增加生产产品的次品率,同时也会给安全生产造成隐患。,刀具寿命:如何预测? 目前大多数刀具供应商对生产出的刀具的寿命(按加工时间或加工次数)进行如下估计:对刀具进行压力测试,测出刀具平均极限寿命,在此极限寿命基础之上,一般按照80%比例折算成刀具寿命。如果刀具使用单位依照刀具供应商提供的刀具寿命进行刀具管理,那么每把刀平均损失20%的寿命。再加上测试环境的不同,刀具供应商提供的刀具寿命还会进一步受到实际工况的影响,其参考性进一步降低。,数据采集,通过霍尔传感器,采集加工机床主轴电流信号,电流信号经数据采集器(DAQ)传送至工控机。,非侵入式,保证机床加工与数据采集的独立性;安装方便,即装即用。,还包括机床数控程序及实时运转信息、加工工艺及加工材料信息以及刀具种类、材质、加工长度等信息。有条件的情况下,可以通过高速摄像头采集刀具的图像信号;通过数控机床自带或侵入式的传感设备,采集压力、振动、热度、声音等其他信息。,管理系统,特征工程,Burstiness:用来评估事件发生频率的间歇性增长量或减少量,Skewness:用来评估样本数据相对于均值的不对称性,Kurtosis:用来评估时序数据的离群倾向,Coefficient of variation:用来评估数据分布的相对于均值的离散化程度,极大似然估计法:通过样本的观测值数据估计某种分布的未知参数,时域磨损特征:均值均方根均方峭度因子裕度因子,频域磨损特征:频带能量重力频率均方频率峰值频率,磨损特征,基础特征,时域信号作用:(1)验证刀具磨损反应到电流上进行磨损预测的方法是否可行;(2)查看刀具的电流信号能否反应磨损状态,即磨损突变信号,整个加工周期是否有趋势。,经过快速傅里叶变换(FFT)的频谱把时域上的电流信号映射到频域上,从而能够观察到电流信号中包含了哪些频率:其中哪些频率是属于刀具切削信号的,哪些是属于空转信号和其他噪声信号的。,相对特征,以刀具使用前期的数据作为基准,观察特征对基准的偏离。,以刀具上一个工件加工数据作为基准,观察特征值含时漂移。,数据分析,工控机持续不断地接收来自数据采集器的电流信号,能够对不同机床的实时信号进行监控、分析和预测,并在必要时发出报警信号或其它辅助信号,如向自动换刀系统发送换刀信号。结合决策树、卷积神经网络等方法进行寿命预测。,典型案例I-常州瑞声,常州瑞声科技:近千台机床铣削制造手机壳,每台机床每年消耗5000把铣削刀具。每年消耗500万把刀!企业痛点:刀具寿命太短,制造200个手机壳即丢弃,但相当部分刀具上可以制造300个手机壳以上,造成大量浪费。,通过检测铣削电流的稀疏贝叶斯学习,对每把铣刀的寿命进行预测,可平均提高寿命超过25%,创造可观经济效益,重大价值,刀具是机加工中最常见的耗损件,机加工中刀具的磨损是最大的成本;机加工中其他易耗件的寿命管理也可以采用类似的方法完成;大数据+人工智能还能在大型机械设备健康管理和异常检测,以及生产线优化中发挥巨大作用。,制造加工中的配件寿命预测与生产线优化,制造加工中的配件寿命预测与生产线优化,制造加工中的配件寿命预测与生产线优化,特征工程+机器学习通过对吸嘴、原件数据的数据整合,整理、衍生出500多个抛料特征训练设备检测模型。在对SMT流水线数据的建模过程中,利用集成模型可以精确地判定是否存在异常。其中抛料的准确率,相比之前的87.60%,达到了现在的96.77%。,早期肺癌筛查Kaggle大赛,识别基因转录位置Nat. Rev. Gene. 16 (2015) 321,乳腺癌亚型分类JMRI 44 (2016) 122,药物作用预测BMC Bioinformatics 2017,大数据与人工智能广泛应用于医疗领域,传统医学图像处理 实际情况多变准确率不高难以大范围推广,医学影像深度学习 深度学习海量数据快速处理准确率高可解释性较弱,人工智能读片 vs. 人工读片,眼科疾病筛查算法的准确率可以达到甚至超过专业医生水准J. Cheng, et al., Sparse Dissimilarity-Constrained Coding for Glaucoma Screening, IEEE Transactions on Biomedical 62 (2015) 1395.人工智能小艾每月为20000+双眼睛读片,人工智能用于早期眼病筛查,http:/,打击非法集资,通过公开的渠道,采集了4000多万家企业的股权关系、知识产权、人力资源、法律诉讼、招标投标等数据,可以帮助我们自动发现金融风险。,Data and Target,数据部分来源于“国家企业信用信息公示系统”,包括(1)企业的成立日期、注册地点、企业类型、企业的经营范围等信息;(2)企业的股东关系信息;(3)企业管理人员的任职关系信息;(4)企业的变更信息。另外还包括所有具有失信记录的企业名录(在投资关系网络中简称为黑节点)。,研究目标:刻画企业失信风险传播的规律,提出发现和预测失信企业的算法,大幅度提高风险和识别和预测能力。应用场景:BBD风险控制引擎。,Attribute Analysis,根据企业的基本特征,包括注册地、所在行业、企业规模在行业中的位秩等等,通过简单的广义线性回归模型,可以得到各特征的回归权重。利用这种简单方法,所预测出来的风险最高的前10000家企业,接近30%有失信记录。,Topological Analysis,Abnormal Detection,最多互惠边:江苏中润,跨地域高阶循环增资,Risk Propagation I,无向网络,有向网络,Risk Propagation II,Feature Selection I,Feature Selection II,Feature Selection III,Prediction of Risky Companies,DS+AI+Education: Significance,突破教育理念,创新教育方法,从定性化教育经验积累到定量化教育引导和教育管理从工业化课堂教育到个性化定制教育的转变从后置性应急管理到前置性预警引导从离线静态分析到自适应动态分析,Data Challenge,精准定位,隐性资助,学生画像解决贫困认定困难问题,从数据层面提供认定支撑,Quantitative Management: Grant-In-Aid,挖掘学生在校相关数据,挖掘学生朋友数量。结合学生家庭背景,了解学生心理状态,及时发现心理异常学生,并给予相应指导措施,研究发现:两个陌生人多次共同出现的概率为极低,据此挖掘学生朋友数量,判断学生是否有孤独倾向,分析学生在校数据,生成学生心理健康指数,判断学生心里健康情况社交关系挖掘:心理测评结果心理咨询记录上网行为特征生活规律性家庭背景,重点关注心理困难学生,开展线上辅导,包括心理知识分享心理咨询记录心理测评学生异常行为告警,Preventive Management: Psychology,通过对学生一卡通数据的分析,能够提前发现学生在学习、生活甚至心理方法存在的问题甚至异常,实现教学管理中的定量化和个性化,对一些可能的突发事件或重大学业问题,实现可预测的管理和干预。,Predictive Management: Performance,Personalized Education,How AI Challenges the World,Labor Structure,大量原有劳动岗位,包括重复性劳动和部分具有一定创造性的劳动将被智能技术和智能设备替代前沿关键技术科学与艺术创新综合性解决方案情感关怀类价值嵌入类,数据伦理:数据中立性?,数据伦理:数据时效性?,Who Setup Ethics Rules?,Discussion,Open Discussion,How to educate university students towards AI players? In particular, what are the core courses for undergraduate AI students, and what should we do beyond course study?Should artificial intelligence simulate natural intelligence by studying psychology or neurology, or is human biology as irrelevant to AI research as bird biology is to aeronautical engineering?Does AI necessarily require solving a large number of completely unrelated problems?Should we design a completely different ethics system for machine intelligence? And how? What will be the next for human society, or as Stephen Hawking said “The development of full artificial intelligence could spell the end of the human race”.,