FFA2023AI特征工程专场资料汇总.docx
《FFA2023AI特征工程专场资料汇总.docx》由会员分享,可在线阅读,更多相关《FFA2023AI特征工程专场资料汇总.docx(140页珍藏版)》请在三一办公上搜索。
1、FD鬻来蚂蚁特征平台是什么特征平台是多计算模式融合的高性能AI数据处理框架,能够满足Al训练和推理场景对特征低延迟产出、高并发访问及离在线一致的数据诉求蚂蚁特征平台核心作用及发展历程flink model-serviceonlineoffline-特征选择/清洗/特征快照 数仓,J样本拼接(特征+标签)A *场型训练F Ai model算法同学1、灵活定义实时特征计算范式2、大规模特征仿真回溯(流批一致)3、实时数据冷启动(流批协同)4、高性能的在线特征查询服务特征大战模仿K/回潮特征平台架构图(UniVerSaI-featuregineasedarchitecture)Iabe-DataOD
2、g历KMl照HMlMsg_Row_DataCDPS-历史消原Hinka网批语义自动转换Monitor1WrAttttMMm、FLINKtCFORWARDtHASA20出实时即未来A-T*MfWtR大规模数据POint-n-TimeJoinflink-based样本特征补全1.ables(features+label)model-trainingmodeOffline-特征生产实时特征生产-Skyline4,模型预测服务Online-Online-StorageSofaMQ计算范式SLs固窗计算计算优化滑窗计算序列计算大规模CoUntdi计算计算DAG归一化计算任务合并计算参数自动优化计算试跑调
3、试(一)冷启动数据源改写Iink流批语义转换flink-basedhbaseIindormphstore特区DSL甯征*述JR)梆洌表11,f2,f3;*iMttUserid=XXXtPtane=XXM:v1,f2:v2AggDataImergeDateSQLJAVATransfonnSAggregaie视图层(10优他R)IOttMlttask-场景化推导计算范式TaSk合并与调度Source-transform-filteridemCalc(tumbleWin_1d_agg_sink)sinkSource-transform-filteridemCalc(tumbleWin_1d_agg_
4、sink)Calc(tumblewin_1d_agg_sink)Source-transform-filterdimJoinCalc(HopWin_1d_agg_sink)Source-transform-filterdimjoinCalc(Hopwin_1d_agg_sink)FiIter上推、列裁剪、结构归一化框架结构相同计算可合并部署(也可完全独立)特征实时计算优化FUNKCU)赛电十FORWARDE禾采AsIAMeemnmemrend优化前19:03:28点击一次I最近3min点击次1一_-!9;0119:0219:0319:0419:0519:06计算资源睁胀同质计算无法共享资源输出
5、。爆炸性能面I域破优化后最近3min点击次数X输出Xj419:03*19:06.1910219:05i19:0119:04PH3pane6Paneipane219:0119:0219:0319:040519:06解决了计算State爆炸,同质计茸合井,滑窗IO放大优化思路State缩流:滑窗State依靠中间帐存储,刷出时基于窗口范围聚合IO刷出:根据数据索引判断滑窗数据是否刷出,新的Pane无数据则不刷出计算资源节省:同质计算复用中间帐state,例如“近1小时登录次数”近3小时登录次数”、“近1天要录次数”3个特征复用同一份State优化结果(聚合算子场景):State缩盘:滑窗State
6、缩减1013倍IO放大降低,稀疏数据场景90%过滤计算资源节省:节省计售资源50%以上特征冷启动FLINKflinktSQL2 .FlinkSQL-SQLParser-AST(SQLNode)3ST(sqlNode)遍历转换:Window转groupby流SOUrC皆专批SOUrCe4 .AST(sqlNode)-flink批SQL5 .Flink批任务运行、追齐数据150亿事件数据量,90天窗口,600core3小时完成冷启动一次邺止百个来源射勾存储的特征高请求、低RT、低长尾毛刺大量特三专换逻辑由业务用户编写在线特征查询百万级QPS单QPS查询上百特征AVG-RT10msP99.99-RT
7、MEStepl.数据分层抽象业务同学T11T1111笥SI饼发A个个个仆个个个小;v聋StOFe2Storeltable2FLINKC实时FORWARD(未来买豕天内付款金金额、selectsur:amount)asfromtrade_tablewheregmt_occurtotalamount24HStep2.构建全局最优IO计划Step3.10分层并发FeaturesFeaturesFeature:Feature3Featurel5HQPS(单QPS查询100特征)结果拆分Storezstore1OPS只有6OW存储查询(中位数业务)用户A-Iel用户A-Id用户B-Id用户B-2dnow
8、()-24Hnow();全局Q优化5W叩S秒变500W存储查询?W三10合并算法,相同查询去窟合并同卷不同列合并为一次查询同表、不同行合并为batchGet同表、同列按大VerSiO询下层Ig上层特征并蜘行,提高并行度JJ什么是特征仿真?FLINKU)FORWARD实时E未来mnmersnd用户最近7天的交易金额这个特征可能有用,帮我根据历史的线上流量回溯下这个特征历史数据?算法模型驱动表:历史上某个时间点的查询请求最近7天的交易金额过去现在未来时间轴Timetravel的大规模数据计算在风控,消费信贷等领域是必备能力传统方案FLlNKU)实时FORWARD即未来产页计算BlinkSQLICr
9、eateviewresultviewas特征查询SQLSelectfromgroupsum(amount)asamount_1dstreamtablebyuserjd,tumble(,ts,1DAY);Selectsum(amount_1d)fromresult_viewwherets=now()-7Day二用户最近7d交易总金额仿真离线计算SQL/selectsum(amount)from(selectuid,amount,tsfromstream_table)asjoin(selectuid,tsfromdriverjable)asdons.uid=d.uidwheres.tsd.ts-7
10、DAY)groupbyuid驱动数据(询请求);ud1,t1,window1uid1,t2,widow2uid1,t3,window310亿Join数据会严重膨胀Iuid1,t_1,data_1uid1,t_2,data_2juid1,t_3,data_3-Juid1,t_4,data_43uid1,t_5,data_5每条驱动表数据都要去JoiiI明细数据,大量ShilffIe,数据膨胀严重仿真计算核心挑战及解决思路FLlNFORWARD臊来mnmersnd挑战:大数据在PlT语义下计算的性能和稳定性O思路:,在离线语义的一致。平台侧负责“流计算语义”到“PIT批计算语义”转换,对用户透明算
11、优化 数据预处理减少无用数据进入join 聚合计算拆账优化(基于账的2阶段聚合,解决join不动问题) 任务按时间分拆分并行(减少单批次JOinShUffle数据量)特征仿真流程FUNK 9实时FORWAHDf 未 来 Njut、天账detaildetaildetailhourhourhourdaydayday逐层聚合,减少数据ShUffIedetaildetail.hour让大规模PTjoin能算的动:.f,/拆账计算大幅减少join数据量/中间账二次聚合过程根据中间帐小时分2023-05-0303:05:56同质计算特征公用中间账,加速计算效率区进行数据裁剪,大幅降低单key的Scan范围
12、USerl在历史某时刻“用户7d付款总金额”特征值2023-05-1003:05:56detailhourdayhourdetail3点粉一5分:563号03点4号9号10号03点3点0分5分:56mncemr-m.刘首维字节跳动推荐架构工程师刘方奇字节跳动推荐架构工程师FLl呸二)实时FORWARD未来字节推荐面向下一代特征工程架构演进之路FIJNh%一FORWARDE未采mmemrenul07业务挑战02新一代推荐特征生产范式03数据湖在字节推荐样本的应用04基于Hink的流批一体样本入湖F(S端涉来CXB3rWm. no w01业务挑战JFLINK2实时FdRWxwB未来点击进入直播间中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- FFA2023AI 特征 工程 专场 资料 汇总
链接地址:https://www.31ppt.com/p-6869206.html