人工智能机器学习及在金融行业应用课件.ppt
人工智能机器学习及在金融行业应用,人工智能机器学习及在金融行业应用,内容,?,人工智能,?,机器学习,AI,分支,?,定义、流派,?,任务,?,常见范式,?,算法介绍,?,在金融中的(潜在)应用,?,总结:金融应用场景,内容 ?人工智能 ?机器学习AI分支 ?定义、流派 ?任,人工智能(,AI,),?,1956,年,达特茅斯会议,(John McCarthy,1927,2011),约翰,.,麦卡锡,AI,五十年留念(,19562006),什么是,AI,?,(Marvin Minsky,1927,2016),马文,.,明斯基,-,研究如何让计算机完成那些只有依靠人类智力才能完成的任务,Mavin,Minsky,-,实现人类智能的功能,途径并不一定与人类智力相同,John McCarthy,-,研究提升机器解决复杂任务能力的领域,人工智能(AI) ?1956年,达特茅斯会议 (John,AI,科学的分支,计算机,视觉,语音,识别,基于规则,的系统,机器学习,自然语言,处理,机器人学,AI科学的分支 计算机视觉 语音识别 基于规则的系统 机器学,机器学习,无处不在,机器学习无处不在,机器学习,?,何为机器学习?,机器通过算法自动地从数据中学习知识,?,两大派别,?,AI,的一个分支,(计算机科学家),关注问题,不在乎手段(统计、代数、逻辑、几何),?,应用统计学的分支,(统计学家),关注算法、不在乎实用,?,经典统计学(频率主义),机器学习,?,足够测量,无需构建模型,?,适合小型问题(少量参数),?,可解释,统计学,AI,分支,?,但复杂问题数据稀疏?举例,分支,机器学习 ?何为机器学习? 机器通过算法自动地从,机器学习,vs.,经典统计学,欠拟合(偏差大),过拟合(方差大),参数优化,目前,金融行业模型,(特别是,风险控制,),?,基于计量经济学理论,?,统计学,为主要分析方法,机器学习 vs. 经典统计学 欠拟合(偏差大) 过拟合(,机器学习(,AI,分支),?,“,Machine Learning is the study of computer algorithms that,improve automatically through,experience,.,”,Tom Mitchell,,,1997,?,从示例(,instance,)中学习,?,何为示例?标签?,?,特征工程(重要),机器学习(AI分支) ?“Machine Learning,金融领域的特征举例,?,多因子选股模型中常用的组合特征及逻辑,金融领域的特征举例 ?多因子选股模型中常用的组合特征及逻辑,股票因子池,?,特征建构,?,特征抽取,?,特征选择,股票因子池 ?特征建构 ?特征抽取 ?特征选择,机器学习任务,?,分类、回归问题(有标签),预测性,Data Supervised Semi-supervised Active Learning,?,聚类、相关性问题(无标签),描述性,Unsupervised,机器学习任务 ? 分类、回归问题(有标签)预测性,各种机器学习范式,?,监督学习,?,无监督学习,?,半监督学习,?,主动学习,?,迁移学习,?,多任务学习,?,多示例学习,?,多标记学习,?,强化学习,?,深度学习,各种机器学习范式 ?监督学习 ?无监督学习 ?半监督学习 ?,监督学习(,Supervised Learning,),?,两大任务,?,回归,(,regression,),?,分类,(,classification,),观察数据分为不同的类别,?,回归,(,区别于统计学的回归),解决过拟合,引入正则项,变量相关性、非线性,惩罚回归模型(,Lasso,回归、岭回归等)、卡曼滤波,?,分类,准确率高、预测意义大,Logistic,回归、,SVM,、决策、随机森林、神经网络、,boosting,监督学习(Supervised Learning) ?两大任,分类算法,Logistic,(对数几率)回归,?,广义线性回归(线性变换,+,非线性函数),?,sigmoid,函数,?,应用:,垃圾邮件分类、疾病判断,分类算法Logistic(对数几率)回归 ?广义线性回归,Logistic,回归在金融中的应用,?,信贷风险管理,?,资产价格变化方向的预测,Logistic回归在金融中的应用 ?信贷风险管理 ?资产价,分类算法,-SVM(Support Vector Machine),?,思想:,找到最佳超平面使得正负样本间隔最大,?,采用核函数解决非线性问题(高维映射、低维内积),?,适用于:小样本、非线性、高维度问题,?,缺点:数据敏感、非线性问题需选核函数、复杂度高,分类算法-SVM(Support Vector Machin,SVM,在金融中的应用,?,举例,:,资产价格变化方向的预测,线性组合,SVM,分类,?,举例:多因子选股,(训练:因子暴露度和收益率),1.,线性核收益分化明显(高斯核、多项式核、线性核),2.,与传统多因子模型比无较大优势,SVM在金融中的应用 ?举例:资产价格变化方向的预测,算法介绍,决策树,(Decision Tree),冷血,表皮,体温,恒温,非爬行类,动物,鳞片,爬行类,动物,非爬行类,动物,?,非企业投资决策技术,?,用于,:分类和预测,?,方法:,寻找最优变量和分裂阈值(,Gini,系数、熵),最小化,损失函数,?,特点,:逻辑简单、鲁棒性差、可集合其他模型,?,算法介绍决策树(Decision Tree),决策树在金融中的应用,?,举例:决策树选股,因子暴露度与个股收益率存在非线性关系,选用:动量(,Mom,)、波动率(,Vol,),市盈率(,PE,)三个因子,决策树在金融中的应用 ?举例:决策树选股 因子暴,算法介绍,贝叶斯,?,理论:主观判断,新信息修正信念,P(A/B)=P(B/A)*P(A)/P(B),?,用于:分类,P(C=1|X1,X2,X3) P(C=2|X1,X2,X3),则判定类别为,1,;否则为,2,找出最大的,P(X|C)P(C),P(X1,X2,X3|C=i),= P(X1|C=i)*P(X2|C=i)*P(X3|C=i),?,贝叶斯网络,(贝叶斯公式,+,图论),?,应用:,治病机制、投资策略、过滤垃圾邮件等,?,优势:,利用经验做合理判断和修正,适合金融市场,算法介绍贝叶斯 ?理论:主观判断,新信息修正信念,贝叶斯定理在金融中的应用,?,举例:风险管理,(企业违约概率,,CDS,市场价),市场信息,+,投资者主观判断,举例:反洗钱,(西交大张成虎等),贝叶斯定理在金融中的应用 ?举例:风险管理(企业违约概率,C,无监督学习(,Unsupervised Learning,),?,特点:数据无标签,学习分布特征,?,两类:,?,聚类(,K,-means,、层次聚类、谱聚类),分成集群(簇),使集群内部有较高的相似性,,而集群之间相似度较低,?,降维(因子分析、,PCA,、,ICA,),在众多变量或指标中提取具有代表性的特征(因,子或因子组合),例如:在多资产组合中,识别出如动量、价值、波动性、,流动性等主要驱动因素。,无监督学习(Unsupervised Learning) ?,聚类算法,K-means,?,步骤:,1,、选择,K,个初始中心点,2,、计算,cost,,组成簇,3,、计算簇内所有点的均值作为新的聚类中心重复上面步骤,直至聚类稳定。,?,优点:,逻辑清晰、高速,?,局限:,需给定,K,和,初始中心点,聚类算法K-means ?步骤: 1、选择K个初始中心点,聚类在金融中的应用,?,举例:股票分析(流通市值、波动率),聚类在金融中的应用 ?举例:股票分析(流通市值、波动率),聚类在金融中的应用,?,股票、基金筛选、资产配置,聚类,例如:资产分层聚类,投资组合风险分散化,?,选股准备(提取主要因子),降维,?,常用的,Barra,多因子模型,聚类在金融中的应用 ?股票、基金筛选、资产配置聚类,半监督学习(,Semi-Supervised Learning,),?,问题:,少量标注样本,大量未标注样本,?,方法:,?,半监督,SVM,?,标签传播,?,PU,学习等,?,应用场景,?,产品推荐,半监督学习(Semi-Supervised Learning,主动学习(,Active Learning,),?,针对问题,:标注样本少,?,思想:,主动向,oracle,获得标注信息,?,获得哪些样本的标注?,需设计查询函数,Q,?,什么是有用的样本?,?,不确定,(uncertainty),?,差异性,(diversity),?,优点,:快速提高模型性能,主动学习(Active Learning) ?针对问题:标注,主动学习在金融中的应用,?,金融反欺诈中的应用,主动学习在金融中的应用 ?金融反欺诈中的应用,迁移学习,?,问题:,源任务,VS,目标任务,大量标签,VS,少量标签,?,目的:,利用源领域数据提高相关,目标领域的建模性能。,说明,归纳式,直推式,无监督,基于示例,基于特征,?,分类,基于相关性,通过调整,源领域的标签(辅助),和,目标领域标签的权重,,协同训练得到目标模型。,找到,“,好,”,特征,来减少源领域和目标领域之间的不同,能,够降低分类、回归误差。,发现源领域和目标领域之间的共享参数。,建立源领域和目标领域之间的相关知识映射。,基于参数,/,模型,迁移学习 ?问题: 源任务 VS 目标任务 大量,迁移学习在金融中的应用,?,应用场景,?,风控、反欺诈,精准营销模型,反欺诈模型,?,股票走势预测,状态之间的迁移,?,个性化推荐,电商推荐,金融产品推荐,迁移学习在金融中的应用 ?应用场景 ?风控、反欺诈,多示例学习(,Multi-Instance Learning,),?,问题:,示例,包,全部,- -,至少一个,+ +,?,目标:,预测新包的标记,?,方法:,三轴平行矩形(,APR,)算法,分为两步:监督学习,标记更新,?,应用:,生物制药、图像检索,?,金融中的应用?暂未发现,多示例学习(Multi-Instance Learning),多标记学习(,Multi-Label Learning,),?,问题,:一个示例存在多个标记,?,举例:,?,方法:,?,问题转换法(二分类、标记排序、多分类),?,算法适应法(改进常用监督算法),?,金融应用场景?暂未发现,标签:,动作,科幻,奇幻,冒险,多标记学习(Multi-Label Learning) ?问,多示例多标记学习,多示例多标记学习,强化学习(,Reinforcement Learning,),?,不依赖历史数据,延时标签,?,思想:,每次行动得到的反馈找到最优策略,使期望奖赏最大,?,Q,学习,,定义,Q,函数,找到使其最大的,a,?,应用:,游戏、决策,现实状态复杂,研究刚起步,强化学习(Reinforcement Learning),强化学习在金融中的应用,?,应用领域,自动化交易,(交易,-,游戏,奖励,-,利润),举例:,J.P,.Morgan,的电子化交易团队利用强化学习的算法开发了限价,订单下单模块(,LOPM,),旨在最大限度及高效的(数秒到数分钟内),降低滑移,完成任务,强化学习在金融中的应用 ?应用领域 自,深度学习(,Deep Learning,),?,本质,多层人工神经网络,?,优点:,?,提取特征更高效,?,更好捕捉非线性关系,?,模型随数据增加不断改善,深度学习(Deep Learning) ?本质 多,深度学习(续),?,不同算法的差别来自层的组成结构及层与层之间的关系,?,DNN,(深度神经网络),?,RNN,(循环神经网络),?,LSTM,(长短期记忆网络),?,CNN,(卷积神经网络)卷积,+,池化(捕捉信息,+,降维),深度学习(续) ?不同算法的差别来自层的组成结构及层与层之间,深度学习在金融中的应用,?,目前应用有限,?,原因,?,自动提取的特征不如分析逻辑提取的因子,?,数据量积累不多,容易过拟合,?,金融数据环境变化快、信噪比低,?,举例:辅助投资,采用语音识别技术、历史交易数据分析,智能投资顾问,(美国智能投顾公司,Wealthfront,和,Betterment,),深度学习在金融中的应用 ?目前应用有限 ?原因 ?自动提取的,广度学习(,Broad Learning,),?,大数据,复杂性、大规模、非结构化数据,?,数据融合,Velocity,、,Volume,、,Veracity,和,Variety,结构化、非结构化(新闻、论坛),?,举例:,借贷风险、股票评价,全方位画像,?,技术:,?,自然语言处理,?,信息网络挖掘,?,知识图谱,?,社交网络,广度学习(Broad Learning) ?大数据,自然语言处理技术(,NLP,),?,应用:辅助投资,舆情分析、智能投顾、自动生成报告,自然语言处理技术(NLP) ?应用:辅助投资,总结:潜在应用场景,?,?,?,?,?,?,?,?,估价,选股,择时,个性化服务,黑天鹅,投资风格,产品推荐,总结:潜在应用场景 ?估价 选股 择时 个性化,应用(,1,),估价,?,通过特定技术指标与数学模型,估算出股票在未来一段,时期的相对价格。,?,业绩,*,此行业的一般市盈率,?,净资产,*,此行业一般市净率。,IT,业这类企业不合适,?,举例:,KNN,方法发现被低估的股票,应用(1)估价 ?通过特定技术指标与数学模型,估算出股票,应用(,2,),选股,?,利用数量化的方法选择股票组合,期望该股票组合能够获得超越,基准收益率的投资行为,?,多因子模型是应用最广泛的一种选股模型,基本原理是采用一系,列的因子作为选股标准,满足这些因子的股票则被买入,不满足,的则卖出。,应用(2)选股 ?利用数量化的方法选择股票组合,期望该股,应用(,3,),择时,?,利用某种方法来判断大势的走势情况,是上涨还是下,跌或者是盘整。,?,收益率最高的一种交易方式,?,SVM,择时就是利用,SVM,技术进行大盘趋势的模式识别,,将大盘区分为几个明显的模式,从而找出其中的特征,,然后利用历史数据学习的模型来预测未来的趋势,。,应用(3)择时 ?利用某种方法来判断大势的走势情况,是上,应用(,4,),个性化服务,?,智能投顾(个性化、细致),?,便利、低门槛和互联网化的理财方式,?,自动生成信息简报,?,AI,取代:大量易标准化、重复性、不具独创性的工作,如:,清算、交收、估值、对账,做多因子模型的投资经理?也很可能被,AI,取代,应用(4)个性化服务 ?智能投顾(个性化、细致) ?便利,应用(,5,),黑天鹅事件,?,实时监测,?,预测可能事件,例如:通过抓取,Twitter,数据,预测地域疾病突发,?,历史事件的数据模式,例如:美国的,Kensho,公司,自动分析报表,?,潜在研究,?,社会影响力分析,?,信息传播,?,基于机器学习技术的社会网络分析与挖掘,应用(5)黑天鹅事件 ?实时监测 ?预测可能事件,应用(,6,),投资风格学习,?,投资经理风格,?,积极性、消极型,?,成长型、价值型、混合型,?,大盘型、中盘型、小盘型,?,技术分析型、基本面分析型,?,头上型、底下型,应用(6)投资风格学习 ?投资经理风格 ?积,应用(,7,),产品推荐,?,面向产品,面向客户,?,协同过滤,1.,分析各个用户对,item,的评价,2.,依据评价计算用户相似度;,3.,选出与当前用户最相似的,N,个用户;,4.,将这,N,个用户评价最高并且当前用户又没有浏览过的,item,推荐给,当前用户。,?,基于内容的方法,?,基于机器学习模型的方法,应用(7)产品推荐 ?面向产品 面向,如下场景应用何种机器学习方法?,问题,给定输入变量,预测资产价,格方向,找出资产价格的驱动因素,一个事件是否会发生,/,发生,的概率,一篇文章的情感色彩和主题,识别图像中的对象,发现一个对象的,profile,金融实例,使用技术指标对于对应的指数进,行择时,行业中有效因子的筛选,高送转事件的预测,基于大量数据预测波动率,公司公告的舆情分析,法人签名识别,产品推荐系统,机器学习方法,SVM,、,Logistic,回归、,Lasso,回归,PCA,、,ICA,SVM,、决策树、,Logistic,回,归,NLP,技术、多标签分类,卷积神经网络,协同过滤,如下场景应用何种机器学习方法? 问题 给定输入变量,预测资产,AI,投研领域,?,分类,?,利用,传统机器学习,算法,预测交易策略,?,运用,NLP,、,SNAP,等,处理非结构化数据,改进模型,?,引入,知识图谱,,提高模型,AI投研领域 ?分类 ?利用传统机器学习算法,预测交易策略,AI,对金融领域的影响,?,1,、改变销售渠道,基金公司直销和第三方机构代销,VS,智能机器人帮助用户制定更适,合的基金组合,并提供风险评估等服务。,?,2,、提高效率,人工智能的计算速度较快、拥有丰富的知识库,快速提供解决方案。,此外,智能服务能够同时服务多个用户。,?,3,、降低风险,通过对大量新闻和历史交易数据进行学习之后,可以得出特定新闻,给市场带来的风险,?,4,、提供个性化服务,基金经理的经验和判断,vs,数据建模投资者需求,AI对金融领域的影响 ?1、改变销售渠道 基金公司,人工智能机器学习及在金融行业应用最新PPT课件,