欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx

    • 资源ID:7150138       资源大小:148.50KB        全文页数:13页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx

    N1.2SQ1.智能对话数据库初探从数据治理的全生命周期来看,商业银行需要具备数据资产管理,高效、高质量的数据加工以及数据创新运用三个方面的核心能力。商业银行在数据存储的选择上呈现多元化,但大多数业务知识和数据仍以关系型数据库的形式存储。目前业务人员只能通过固定的界面接口查询使用数据,数据查询过程繁琐且效率低下,极大地限定了业务人员按需查询数据库的场景和查询界限。在此背景下,业界在探索一种新的人机交互方式,即通过N1.2SQ1.(Natural1.anguageToSQ1.)技术,将业务人员的查询意图快速准确地转换为可执行的SQ1.查询语句,省去人工构造SQ1.语句的过程,从而大幅提升数据查询效率。新兴技术N1.2SQ1.解读1 .什么是N1.2SQ1.N1.2SQ1.是将用户自然语言转化成数据库可执行的SQ1.,完成人与关系数据库交互的实时数据查询。其目的是让用户无需掌握专业数据库编程技能也可以灵活快速地操作数据,以降低数据库使用门槛。从技术范畴来看,N1.2SQ1.本质是将自然语言问句转换为计算机可读懂、可运行、符合计算机规则的语义表示,需要计算机理解自然语言,并生成准确表达语句语义的可执行程序式语言。其定位属于语义分析的子领域,相关技术还有N1.2Bash.N1.2Python.N1.2Java°N1.2SQ1.的研究成果后续可以为语义分析相关领域的研究提供借鉴思路。2 .N1.2SQ1.的关键技术N1.2SQ1.属于N1.P的子领域,相较其他自然语言处理方向的实现方式,在内部实现的整体结构上大同小异,而在技术实现的具体应用有所不同。N1.2SQ1.实现基于N1.P处理流程,在技术实现层面需要从用户语言意图到SQ1.生成的核心细节考虑。从语言灵活性和泛化能力考虑,大多数研究倾向于基于有监督的机器学习处理方式。N1.2SQ1.处理流程综合应用了人机交互、自然语言理解、机器学习、知识工程等多个领域知识,如图1所示。特征工程N1.2SQ1.流程图图1人机交互:多轮人机交互提升用户意图识别准确度。用户查询数据库提问通常没有明确的查询意图,只有一些假设和猜想,仅通过单轮对话难以得出结论,需要通过“提问一反馈一再提问”的渐进式交互明确用户意图。自然语言理解:正确理解和解析用户表达的查询意图是N1.2SQ1.的核心能力。在人机交互过程中,模型需要具备基于上下文的自然语言理解能力,包括用户意图识别、语法检测、语义预测等,以达到充分理解用户查询意图的目的。机器学习:合理有效的机器学习算法是N1.2SQ1.的基础技术支撑。N1.2SQ1.利用机器学习算法结合领域知识,可以对表数据进行自主学习丰富知识结构,同时结合不同的用户在不同领域的问题,建立预测模型。再者,基于深度学习算法与规则的结合,模型具备泛化能力、可移植、可解释性的语义解析框架。知识工程:采用知识工程技术手段,实现自然语言到数据库的有效预测。基于多种人工智能技术融合,知识工程通过知识获取、知识验证、知识使用等手段,学习表结构相关的领域知识,建立功能完善的N1.2SQ1.知识模型,实现自然语言到符合用户意图SQ1.的准确预测,最终以合理的方式将查询结果返回给用户。创新数据运用模式初探1.N1.2SQ1.应用现状N1.2SQ1.目前主要处于研究阶段,商用案例较少,且大多数的研究是基于英文数据集开展。2019年首届中文N1.2SQ1.挑战赛最高成绩已达92%以上,刷新了中文N1.2SQ1.的业界记录(见图2所示)。中文N1.2SQ1.挑战赛测试准确度:92.19%数据特点:(1)单表单列杳询;(2)聚合操作CMAX丁MN,'COUNT,SUM',AVG');条件连接('AND');(4)条件比较('=丁乂V)测试准确度:92.2%数据特点:(1)单衣单列查询;(2)聚合操作('MAX丁MIN)'COUNT;,SUM,AVG');(3)条件连接CAND%(4)条件比较(E,少SPider挑成测试准确度:61.9%数据特点:(1)跨域多表多列奇闻,复杂子查询;聚合操作('MA)C,MN,'COUNT,'SM',AVG,'GROUP,HAVING',1.IMIT');外表连接口。irV,'on1.as')条件连接('AND;。);(4)f½tt(,not,between,,=:<=丁!=in,等)(5)排序操作('orderbyJdesc',"asc')(6)SQ1.连接('Intersect','UniOn',N1.2SQ1.研究三大数据集对比情况图2这样高的预测准确率是否代表N1.2SQ1.研究成果能够满足真实场景的应用需求?事实并非如此。目前N1.2SQ1.的研究主要分为两个方向,一个是针对单表的简要查询,另一个是针对跨域多表的复杂查询。中文N1.2SQ1.挑战赛高达92%的准确率仅是针对同一数据库的单表简要查询的限定条件,且基于有监督学习所达到的测试精确度,这类似于基于WikiSQ1.数据集的英文N1.2SQ1.挑战(目前公开提交的最高测试精确度为92.2%)。这两者研究没有涉及跨域、多表连接、聚合、子查询等众多复杂情况,难以直接适用于需求灵活多变的实际应用。在真实场景中,N1.2SQ1.需要考虑问题与数据的泛化匹配,表之间错综复杂的联系,多种数据筛选条件等多种情况,而基于单表查询的研究更多是起到抛砖引玉的作用。相较于单表查询,针对跨域多表复杂查询的N1.2SQ1.研究与真实场景应用更为贴近,其中基于Spider数据集的N1.2SQ1.研究成为当前N1.2SQ1.的研究热点。由于查询任务需要考虑众多因素,在数据处理和SQ1.预测上存在极大的挑战,目前在SPider公开提交中的最优算法测试准确率仅有65.8%,离实际应用还有一定的距离。2.N1.2SQ1.应用面临的挑战目前中文N1.2SQ1.技术尚未成熟,面临着中文数据集缺乏、查询意图转换SQ1.缺乏背景知识支撑、模型成熟度三方面的挑战。中文N1.2SQ1.数据集缺口。关于中文N1.2SQ1.研究情况业界信息甚少,且缺乏可以直接使用的开源数据集,目前已知的开源数据集仅有中文Spider数据集。由于在前期的数据收集和数据预处理需要投入大量的人工和时间,因此数据集的缺乏对中文N1.2SQ1.研究造成了一定的阻碍。查询意图转换SQ1.缺乏背景知识支撑。用户自然语言表述问题口语化,一般不包含表格的背景知识,忽略很多查询条件,这对生成正确的SQ1.查询语句造成了困难。因此在自然语言理解的过程应尽量收集用户查询意图,并为表结构知识进行知识增强,比如宇宙行转换为工商银行,从而提高自然语言理解能力。模型移植性等能力存在不足。基于规则的N1.2SQ1.实现往往缺乏移植性和泛化能力,而基于深度学习的N1.2SQ1.实现,构建端到端的神经网络,则缺乏可解释性,难以进行调试优化。如何合理地将规则和机器学习进行综合,是提升预测准确率的突破口之一。N1.2SQ1.在金融行业应用的思考数据库作为商业银行数据的存储基础,无论是金融外围业务,还是核心业务都离不开数据库查询需求。在此背景下,N1.2SQ1.可以作为“AI+”在金融客服、营销支持、金融交易等业务领域应用的切入点,在金融数据运用模式创新方向发力。目前N1.2SQ1.处于快速发展阶段,但仍然不成熟。为发挥在金融场景的应用潜力,建议N1.2SQ1.在金融行业应用进行以下思考。积累金融领域相关的N1.2SQ1.标记数据。目前自然语言处理主要基于有监督学习进行模型训练,需要大量的数据集作为训练支持。为了更好地覆盖银行业务中常见的查询问题类型,应持续积累金融领域相关的N1.2SQ1.标记数据,基于实际应用分析构建满足金融领域业务逻辑以及包含多表复杂查询问题的数据集,作为N1.2SQ1.在金融领域应用的数据基础。探索金融业务创新应用。金融行业是非常注重稳定性,新技术的应用无法做到一蹴而就。建议在风险低的金融场景进行N1.2SQ1.的应用探索,一方面验证新技术应用的成熟度,另一方面可以不断挖掘N1.2SQ1.在具体场景的应用价值,为N1.2SQ1.在金融领域应用做好技术储备。持续跟进N1.2SQ1.技术发展形势。近年来,随着人工智能技术的成熟,N1.2SQ1.得以快速发展。建议持续跟进N1.2SQ1.技术发展形势,包括N1.2SQ1.在跨域多表复杂查询的研究进展、N1.2SQ1.在行业应用情况等技术动态,为N1.2SQ1.在金融领域应用提供技术研判。智能对话在打通人与数据查询壁垒上的探索1、场景介绍某银行业务人员想要查询某款理财产品中原财富1号9月销售额度,对于数据工程人员则会考虑写一个SQ1.语句:Selectsum(sale)fromtablenamewheremonth=9andproductname=*中原财富1号”业务人员一般不具有SQ1.编程能力,而对于上述这些语句比较简单,但问题发散的场景,业务人员想要查询相应的结果需要找到数据工程人员完成相关流程。流程比较繁琐,而通过nI2sql技术,则可直接将问题转换成相对应的SQ1.语句用于相关表的查询并返回结果,因此nl2sql可被用于问答系统,通过配合相关规则及其他语义模型,能够对一些简单常见的用户问题转换成相应的SQ1.oa:2、关于N1.2SQ1.的介绍2.1 什么是N1.2SQ1.N1.zSQ1.(Natural1.anguagetoSQ1.),顾名思义是将自然语言转为SQ1.语句。它可以充当数据库的智能接口,让不熟悉数据库的用户能够快速地找到自己想要的数据,改善用户与数据库的交互方式。2.2 N1.2SQ1.的目标与定位从技术的角度来看,N1.2SQ1.的本质是将用户的自然语言语句转化为计算机可读懂、可运行、符合计算机规则的语义表示,同时需要计算机理解人类的语言,生成准确表达语句语义的可执行程序式语言。其定位是语义分析领域的一个子任务。2.3 N1.2SQ1.的数据集1英文n12sql数据集nl2sql的开源数据集,目前比较火的英文数据集有WikiSQ1.、Spider>W汰iTableQuestions、ATIS等,各个数据集都有各自的特点,下面简单介绍下这几个数据集。WH6SQ1.:该数据集是Salesforce在2017年提出的大型标注n12sql数据集,也是目前规模最大的nl2sql数据集。它包含了24,241张表,80,645条自然语言问句及相应的SQ1.语句。目前学术界的预测准确率可达91.8%oSpider:Spider数据集是耶鲁大学于2018年新提出的一个较大规模的n!2sql数据集。该数据集包含了10181条自然语言问句,分布在200个独立数据库中的5,693条SQ1.,内容覆盖了138个不同的领域。虽然在数据数量上不如WikiSQ1.,但SPider引入了更多的SQ1.用法,例如GroUPBy、OrderBy>Having等高阶操作,甚至需要Join不同表,更贴近真实场景,所以难度也更大。目前准确率最高只有54.7%。WikiTableQuestions:该数据集是斯坦福大学于2015年提出的一个针对维基百科中那些半结构化表格问答的数据集,内部包含22,033条真实问句以及2,108张表格。由于数据的来源是维基百科,因此表格中的数据是真实且没有经过归一化的,一个CeII内可能包含多个实体或含义,比如Beijing,ChinaJ或200kmJ;同时,为了很好地泛化到其它领域的数据,该数据集测试集中的表格主题和实体之间的关系都是在训练集中没有见到过的。TheAirTravellnformationSystem(ATIS):ATIS是一个年代较为久远的经典数据集,由德克萨斯仪器公司在1990年提出。该数据集获取自关系型数据库OfficialAirIineGuideCOAG,1990),包含27张表以及不到2,000次的问询,每次问询平均7轮,93%的情况下需要联合3张以上的表才能得到答案,问询的内容涵盖了航班、费用、城市、地面服务等信息。中文nl2sql数据集中文数据集目前只有追一科技在天池发布的比赛数据集,包括4万条有标签数据作为训练集,1万条无标签数据作为测试集。目前比赛第一名的成绩,准确率达到了92%o3、基于深度学习的nl2sql数据格式业务问题对应SQ1.数据结构格式SQ1.字典SQ1.表相关数据如上图所示,构建基于深度学习的nl2sql训练数据,主要包括三部分:业务问题对应的SQ1.信息,SQ1.字典,SQ1.表数据。下面分别介绍相应的数据格式。3.1 业务问题对应的的SQ1.首先来看一下SQ1.相关的符号字典叩_§41_(1记曰0:“>",1:“<,2:“=",3:”!二”,4:“不被SeIeCt”#判断符号agg-Sq1.dict=0*,l>AVG"2"MAX”3"MIN*4:"COUNT,5:“SUM”,6:“不被select"#聚合函数符号ConkSq1.diCt=2:“or”)#条件逻辑关系基于花百字典的描述格式为“table_idt”alb2c3d4”,#相应表格的id"question":自然语言问句“sql”:#真实SQ1.se,lSQ1.选择的列“agg”:4,#选择的列相应的聚合函数,O代表无ncond_conn_op":l,#条件之间的关系”conds”:U62'2016M7,2;融资收购其他资产R#其中6,2,2016分别表示条件列,条件符号类型,条件值下面看一个实际案例:(1)业务问题为净资产收益率达到25以上或者季度每股盈余达到2以上的有哪些证券?(2)对应的SQ1.为selectcol_1fromTable_43b0a2f31d711Ie9b86df40f24344a08wherecol_3>',25"orco1.4>"2u(3)描述格式“table_id”:“43b0a2f3ld7111e9b86df40f24344a08","question'1:资产收益率达到25以上晟者季度每股盈余达到2以上的有哪些证券?”,“sql”:“agg":O,#不做聚合"ConC1.COnn_op”:2,#选择条件是或"选择第1列列Ond5”:3,0,“25”,#第3列大于254,0,”2”#第4列大于23.2SQ1.相关表信息(1)如下表所示,为上述SQ1.业务问题对应的表,2col_3COiJ,5I2O7S.SZ沙旃股份28.960.9941.636OO3O7.SHE做5兴.390.0599.066000MSH包旧股份5.710.0529.51O7O9.SZ同旧版份4.820.1521.8SOOoTTB.SN颍兴HHr8.50.3114.746015.SH庆汨铁11.890.1413.12000959.SZ,旧股份10.10.429.786022SM山东的铁15.210.198.940751.SZ本讷板村9.720.438.916O19.SH宝眄版份13.960.928.356OO8O8.SH马iH®份22.710.66.91000898.SZ额i冈酸份14.10.856.96231.SH及旃般伤22.160.*76.766O0581.SM八27.640.686.246Ol3.SH53.91.365.876S07.SH方大特询75.11.945.826126.SH杭SR版份14.650.815.58211O.SZ三,哂光0.673.315.146782.SM破旧股份30.861.165.126282.SM南汨股份31.350.834.64O717.SZ即眄松山77.411.334.53OOO932.SZ华55眄铁47.891.774.46569.SH34.630.81.1(2)SQ1.相关表的格式"rows":”002075必,”沙钢股份”,28.98,0.39,41.63,“600307.SH”,“酒钢宏兴”,6.39,0.05,39.06,600010.SH”,“包钢股份”,5.71,0.05,29.51,”00070952”,“河钢股份”,4.82,0.15,21.85,-000778.SZ”,“新兴铸管”,8.5,0.31,14.74,“601005.SH",“重庆钢铁”,11.89,0.14,13.12,000959.SZ”,“首钢股份”,10.1,0.42,9.78,”600022.SH”,“山东钢铁”5.21,0.19,8.94,"header乜"证券代码证券简称"JROE(TTM)TEPS(TTM)"JPE(对应2018.10.31收盘价收丁'43b0a2f3ld7111e9b86df40f24344a08,)对应的SQ1.格式为:SE1.ECTaggCO1.UMN-NAME1FROMTAB1.E_NAMEWHERECO1.UMb1.NAME2opVA1.UElconnCO1.UMN_NAME3opVA1.UE2其中agg为agg_sql_dict中字典中的值,OP为op_sq1.diCt字典中的值,conn为conn_sql_dict中的值4、基于bert的nl2sql模型4.1 N1.2SQ1.实现简述对于M2sql的各个系统,在内部实现上,整体结构都大同小异,只是技术不同罢了。下图描述了从QUeStion到SQ1.生成的核心细节,简单来说,整个系统将n12sql分成了SQ1.几个子句的识别,包括SE1.ECTclause>WHER氏IaUSe,当然可能还看groupby、Iimit等等。每个部分又会牵扯很多的细节,比如table识别,属性识别,适当的添加索引等等。图二是采用深度学习方法,通过encoder-decoder的方式进行nl2sql的实现。Google的Analyza采用的则是语义解析和规则的方式构建的,PaPer中解释主要还是因为数据的问题。4.2 N1.2SQ1.深度模型简述本文介绍基于bert的n12sql模型,bert模型是GOOG1.E公司的AI团队于2018年10月11日发布,在机器阅读理解顶级水平测试SQUAD1.I中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同N1.P测试中创出最佳成绩,包括将G1.UE基准推至80.4%(绝对改进7.6%),MUltiN1.l准确度达到86.7%(绝对改进率5.6%)等。bert是一个深层的基于Transformer结构模型,其结构只包含了Transformer结构的encode部分,是一个预先经过大量语料训练的预训练模型,主要包括掩码损失函数与用于预测上下句之间是否有逻辑关系的损失函数。在基于预训练bert模型的基础上,我们可以针对特定场景fine-tune模型,比如文本分类,自然语言推理,文本序列标注,其模型结构如下图所示。本文实践基于追一科技在天池发布的开源中文比赛数据集,并应用科学空间博主苏剑林发表的基于Bert的ni2sql模型,并借鉴参考了n!2sql比赛第一名与第三名的相关技术方案及思路,以及tongguo等于2019年发表的论文ContentEnhancedBERT-basedText-to-SQ1.GenerationK其整体技术方案为在bert模型的基础上进行fine-tune,使用四个子模型,主要包括select部分的预测,where部分的连接条件,where部分的运算符号,where部分的条件列与条件值,如图下图所示。在预训练bert作为整个结构的深层网络,将输入问题与相关表列的信息结构作为输入部分,本文将问题与表的结构分别用Q于H表示。下面对各个模块进行详细介绍。(1)bertembedding层对于输入问题信息与表结构信息需要转换成bert的tokens,对于输入的问题信息我们用wl,w2,.,wn来表示。对于输入的表的列信息用hl,h2,.,hn来表示,然后将两部分进行concat作为bert的输入,用bert的编码格式表示如下:C1.Swl,w2,.,wnSEPC1.ShlSEP,输入bert后经过bert的embedding层转换成相应的embedding层编码作为bert的多头自注意力机制与feedforward等的输入,然后进入下游子任务进行fine-tune。(2)where部分的con操作对于where部分的con子任务,目标是预测where部分的条件连接符操作(and,or等),用Q表示输入问题,即是第一个C1.S对应的向量可以认为是整个问题的句向量,用H表示表的列名,通过上述特征可以用来预测COndS的连接符(3分类问题)。则输入部分可以表示如下P(WCQ,H)使用交叉燧损失函数loss_wc=crossentropy(wc_in,wc)(3)where部分中的运算符WO对于where部分的运算符部分的任务,目标是预测条件值对应的运算符有4个,新增一类代表当前字不被选中,其它类别则是选中且对应某个运算符。QV表示问题的外的其他输入特征,其形式为:P(woQ,H,QV)使用交叉端损失函数loss_wo=crossentropy(wo_in,wo)此外需要对输入问题特征进行mask处理,Xm为列的mask,其shape为ShaPe=mask.shape=(None,xen):loss_wo=SUm(IOss_wo*Xm)sum(xm)(4)where部分中的条件列选择用Q表示输入问题,用H表示表的列名,QV表示如问题的外的其他输入特征,HV表示除了列名外的其他特征,其输入形式如下表示:P(ws,wvQ,H,QV,HV)使用交叉端损失函数:loss_ws=CrOSSentrOPy(ws_in,WS)并同时对输入模型的问题露正向量与表列名称向量做mask处理:loss_ws=sum(loss_ws*xm*cm)/sum(xm*cm)SeleCt部分对于select部分的子任务,目标是预测select部分的列值与select部分的agg值。用SC表示用来预测SeleCt部分的列值,用Sa表示SeIeet部分的agg对应值。用Q表示输入问题,用H表示表的列名,即后面的每个C1.S对应的向量,每个表头的编码向量,用来预测该表头表示的列是否应该被SeleCt和agg(7分类问题),HV表示除了列名外的其他特征,则输入部分可以用如下表示:P(sa,selQ,H,HV)使用交叉端损失函数loss_sel=crossentropy(sel_in,sel)此外需要进行列名的mask处理,hm为列的mask,其shape为mask.shape=(None,h-len)loss_sel=sum(psel_loss*hm)/sum(hm)最终的损失函数为loss_wc+loss_wo+loss_ws+loss_sel模型的优化器可使用Adam优位器,是目前深度腐型常用的优化器,包含两阶动量对梯度进行处理,其算法流程图如下。售IJrtft:9ti9t9(7t*mfT),11=OOoI:瓦=09=09"=10'"n:步长箔称学3串(Stepwe):而治|04):矩估计的羯效IH|率:/(©):参数瞰机目新题数值;:初始管故向:*"o*-;¼*-0:二电两:*-0:时阈步长:优化过IB(更蒙,数向过程):w5MMR(9>一(/,(.,I)WK-O9Mtt(鲁敛屋上论用)m,3ml-l÷(-3)*9*标.T冏.rl÷-«V1÷O-)*9?昆新,二矩向<"11(l-)计伯陛校正的第二矩向4-rI-nmi(+<)H*rt4S优伊则腼束相比较于Adadelta和RMSprop优化器,除了存储了过去梯度的平方Vt的指数衰减平均值,也像momentum一样保持了过去的梯度mt的指数衰减平均值。因此对于稀疏数据来说,使用Adam是比较好的选择。5、模型部署测试本文部署nl2sql使用微服务架构kubernetes+docker+gunicom+flask将模型发布成为restfulApi接口的形式用以给工程端进行调用,其中Kubernetes常用的架构如下图所示。小I3i-*三JM本项目采用的部署方案具体流程如下图其中工程端发送的json数据格式如下:(*rWMtl4*iJ.*CBtMtT>9*:1到*iaU.ft4*r44A40l311W911f*M24M4>M八三UW"IMHmr速T边偿SrtH:*»翕RAlUTBXr*tabl*4>ct.|»¼4MtezimiO.*ctr:WMWO以下是通过模型计算返回的json结果,其中Sq1.pred字段即为模型预测返回结果。*r9Mtl4*X*A41aCMVtTv>*rl.旬acate*S*)<l1.*tl*A)et1.)*iUMt*:100010.c*tl4*M600.金,t”到、c.trj.d8.i.j>.o.i.*.).<.。aer*i'>.t>.n.r>r.(注:文本实践中为了验证模型,对数据进行了随机抽取,因此是基于小样本学习,没有进行系统性调参,预测结果会出现偏差。在服务器上使用GPU进行全样本大规模多轮迭代会大幅提升准确率)6、应用现状与未来展望nl2sql技术当前由于数据的问题暂时没有应用到业务当中,对于未来业务应用的规划其相关技术可作为智能问答系统的一项辅助技术。当用户提出的问题在问答知识库中找不到相关答案,且通过语义相似模型找不到相似问题,则可再通过nl2sql模型再进行预测如下图。此外基于上文提到的论文及优化方案,可对模型进行大幅优化。本文主要介绍了nl2sql的背景,发展历程,相关数据集。详细介绍了构建nl2sql模型的特征工程过程,基于bert构建nl2sql模型的原理,及采用微服务架构部署模型的相关技术方案,并针对n!2sql对于未来业务问答系统的架构做了一个规划。目前尽管有着各色的数据库,但访问和操作数据库的SQ1.是通用的。人性化的编程语言SQ1.为开发者在工作中访问数据库提供了便利,但同时也限定了非专业用户按需查询数据库的场景。随着机器学习在N1.P领域取得的突破进展,结合了人工智能与N1.P的N1.2SQ1.为非专业用户查询数据库提供了新的思路。参考文献Ul邵理煜、刘巍:浅析商业银行数据治理之数据核心能力J,载中国金融电脑,2018.112曹金超、黄滔、陈刚、吴晓凡、陈珂:自然语言生成多表SQ1.查询语句技术研究,载计算机科学与探索,2020.04.16

    注意事项

    本文(NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开