《交管大数据中心业务模型建设规范(征求意见稿)》.docx
《《交管大数据中心业务模型建设规范(征求意见稿)》.docx》由会员分享,可在线阅读,更多相关《《交管大数据中心业务模型建设规范(征求意见稿)》.docx(29页珍藏版)》请在三一办公上搜索。
1、ISC35.240.60CCSR99DB34安徽省地方标准DB34/TXX-XXXX交通管理大数据中心数据模型建设规范SpecificationforTrafficManagementBigDataCenterBusinessModeling(征求意见稿)XXXX-XX-XX 发布XXXX-XX-XX实施安徽省市场监督管理局发布前言本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由安徽省公安厅提出并归口。本文件起草单位:安徽百诚慧通科技股份有限公司等。本文件主要起
2、草人:张宏燕等。交通管理大数据中心数据模型建设规范1范围本文件规定了交通管理大数据中心数据模型建设过程中的数据处理、特征选择、数据建模、模型评估、模型发布规范。本文件适用于交管业务大数据建模的分析、设计、开发、测试、调优和发布。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。本文件没有规范性引用文件。3术语和定义3.1数据建模DataModeling数据建模是一个数据分析与挖掘的过程,从数据之中发现问题,解释问题,建立相应的数据模型。3.2模型
3、评估ModelEvaluation获取模型对于数据的拟合程度,对模型的泛化能力(性能)进行评估。4建设流程交通管理大数据中心数据模型建设流程见图Io图1数据建模流程示意图交通管理大数据中心数据模型模型设计内容包括数据处理、特征选择、数据建模、模型评估和模型发布。5数据处理5.1 数据提取5.1.1 提取数据源5. 从交管大数据综合应用平台、集成指挥平台以及第三方外挂平台提取数据。6. 1.2提取范围交管大数据中心业务数据提取范围包括但不限于驾驶人、机动车、违法、事故、过车、道路、卡口设备、气象数据、其他数据等;一驾驶人数据:包括驾驶人身份证明号码、性别、准驾车型等,详见附录A驾驶人信息表机动车
4、数据:包括号牌号码、号牌种类、核定载客、车辆类型等,详见附录B机动车信息表一违法数据:包括号牌号码、号牌种类、违法行为、违法时间等,详见附录C违法信息表一事故数据:包括号牌号码、号牌种类、事故类型、事故发生时间、事故地点等,详见附录D事故信息表、附录E事故人员信息表一过车数据:包括号牌号码、号牌种类、过车时间、设备编号、车道号、车辆类型等,详见附录F过车信息表一道路数据:包括行政区划、管理部门、道路类型、道路代码等,详见附件G道路信息表一卡口设备数据:包括设备编号、设备类型、车道号、方向类型、点位编号等,详见附录H卡口设备信息表一气象数据:包括设备编号、行政区划、能见度、湿滑系数、风速等,详见
5、附录I气象数据信息表一其他数据:包括吸毒人员、在押人员等,详见附录J其他数据信息表6.1 .3提取方式数据提取方式包括:使用公安交管业务分布式汇聚管理平台采用相机SDK接入、GAT1400公安视图库标准协议接入、ftp协议接入以及消息队列中间件数据接入等多种方式,来收集数据。一使用公安交管数智能力开放平台数据接入模块进行配置输入数据库连接、输出数据库地址进行数据采集。6.2 清洗治理5. 2.1数据质量评估基于数据标准和质量规则评估驾驶人、机动车、违法、事故、过车、道路、卡口设备、气象数据、其他数据的整体质量,分析数据的缺失值、冗余值、错误值、不一致性等问题,以确定数据清洗目标。6. 2.2非
6、空数据核验数据质量评估分析出来的缺失数据,在字段为非空的情况下,对该字段进行核验。如驾驶人数据中的身份证明号码、性别、初次领证日期;机动车数据中的号牌号码、号牌种类、车辆类型、使用性质、初次登记日期、身份证明号码、机动车状态、核定载客、检验报废期止、强制报废期止;违法数据中号牌号码、号牌种类、违法时间、违法行为、违法记分数;事故数据中的事故编号、事故发生时间、死亡人数、受伤人数、号牌号码、号牌种类、是否逃逸;过车数据中的号牌号码、号牌种类、经过时间;道路数据中的道路代码、道路类型、道路名称、行政区划、管理部门;卡口设备数据中的设备编号、设备类型、使用状态、车道号、方向类型、点位编号;气象数据中
7、设备编号、检测时段、检测时间;其他数据中的身份证明号码。7. 2.3重复数据去重对数据质量评估分析出来的冗余数据,重复记录去重,保留最新记录。如驾驶人数据身份证明号码;机动车数据中号牌号码、号牌种类;违法数据中违法编号;事故数据中的事故编号;道路数据中的道路代码;卡口设备数据中的设备编号;气象数据中设备编号;其他数据中的身份证明号码。8. 2.4错误数据删除对数据质量评估分析出来的错误值,进行删除。如驾驶人数据中准驾车型代码不存在、身份证明号码长度大于18;机动车数据中初次登记日期内容是100年前;违法数据中单次违法记分数值为5分的;事故数据事故发生时间大于当前时间;过车数据经过时间大于当前时
8、间、号牌号码识别长度大于8;道路数据中道路类型不存在;卡口设备数据中设备编号不符合设计标准;气象数据中设备编号下的记录值都为空。5. 2.5规范数据类型数据质量评估分析出来的不一致值,对其数据类型规范化。数据类型不一致,如日期类型的数据实际却是字符或数字类型,应转成日期类型;驾驶人数据中下一清分日期、下一审验日期、初次领证日期、有效期始、有效期止、发证日期、出生日期;机动车数据中初次登记日期、最近定检日期、检验报废期止、强制报废期止、发行驶证日期、发登记证书日期、发合格证日期、保险终止日期;违法数据中违法时间、处理时间、缴款日期、录入时间;事故数据中开始侦查时间、结束侦查时间、事故发生时间、录
9、入时间、更新时间;过车数据中经过时间、录入时间;气象数据中检测时间。6. 特征选择6.1 构造衍生特征为了丰富特征维度,使用将单个或多个特征进行计算、组合数据方式构造衍生特征。如驾驶人数据中驾驶人驾龄是当前日期与初次领证日期相减计算得到、驾驶人年龄通过当前日期与出生日期减去计算;是否车型降级通过准驾车型和原准驾车型比较得到;车辆数据中车辆是否强制报废通过当前日期与强制报废期止相减计算得到、是否逾期未年检通过当前日期与检验有效期止相减计算、是否逾期未保险通过当前日期与保险终止日期相减计算;违法数据中车辆违法次数通过对号牌号码和号牌种类分组计数得到、车辆总违法记分数通过对号牌号码和号牌种类分组求和
10、得到、车辆有多少次严重违法通过对违法类型进行筛选然后对号牌号码和和号牌种类分组计数得到;事故数据中车辆发生财产损失事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生伤人事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生亡人事故通过对号牌号码和号牌种类分组计数得到;过车数据中车辆过车天数通过号牌号码和号牌种类分组对日期进行计数得到、车辆经常经过点位对号牌号码和号牌种类与点位分组计数,然后再对号牌号码和号牌种类进行排序取计数最多的那个点位;卡口设备数据中卡口在道路的位置通过公里数和米数相加得到;6.2 特征转换对原始特征和衍生特征数据进行特征转换。转换方法如下:二值化:将两个类别型的特征,
11、转换成1、Oo如驾驶人数据中性别特征,转换成男性:1,女性:0;国籍转化为中国人:1,外国人:0;车辆数据中是否强制报废,是:1,否:0;是否逾期未年检,是:1,否:0;是否逾期未保险,是:1,否:0;事故数据中事故类型转成伤亡事故:I,财产损失事故:Oo哑变量:将不能够定量处理的特征量化,对多类别型特征处理。如车辆数据中车辆类型转换,大车:OOO1,小车:0010,摩托车:0100,其他车:1000;车辆数据中车辆使用性质,客运:0001,货运:0010,危化品:0100,其他:1000;违法数据中行为特征转换,违法停车:000001,超速:000010,违法交通信号灯:000100,非法营
12、运:001000,超员:010000,超载:100000等。标准化数据:对于不同特征取值范围相差较大的,将特征值通过公式(X-均值)/方差映射到到0,1范围内。如车辆数据中车龄进行计算得到标准化后数据;违法数据中总违法记分数进行标准化;分箱处理:对于连续型特征,转换为类别型的特征。如对驾驶人年龄做分箱处理,处理后18-23、24-3031-3536-4041-5051-6060以上共7个类别;过车数据中近三十天车辆过车天数处理后小于3天、4-89-13J14-16.17-21、21天以上共6个类别。6.3 特征筛选对预测预警类和异常检测类模型中用到的原始特征、衍生特征数据和特征转换后的数据进行
13、特征筛选。特征重要性排序:使用随机森林算法或决策树算法中的特征重要性计算模块来计算特征重要性,并按照重要性做降序排序,得到特征的重要性集合N;特征筛选:剔除特征重要性排序最低的10%的特征,得到新的特征集合;用新的特征集合,重复上述过程,直到剩下0.75*N个特征。7数据建模7.1 统计分析类模型7.1.1 适用场景7. 此类模型主要用于编写日常统计分析报表、专项研究报告等工作,如机动车统计、驾驶人统计、交通违法统计、交通事故统计、交通违法查处态势分析、道路交通安全态势分析等8. 1.2使用数据机动车统计:号牌号码、号牌种类、车辆类型、核定载客驾驶人统计:性别、出生日期、初次领证日期、补证次数
14、、驾驶证状态交通违法统计:行政区划、管理部门、违法时间、违法地点、违法行为、信息来源、违法记分数交通事故统计:事故发生时间、行政区划、管理部门、事故地点、当场死亡人数、抢救无效死亡人数、24小时死亡人数、3日内死亡人数、7日内死亡人数、机动车数量、非机动车数量、行人数据量、事故类型、事故认定原因分类、碰撞方式8.1 3建模步骤8.2 3.1数据分组统计统计机动车类型占比,按机动车类型做分组,具体分为重型货车、中型货车、小微型货车、普通小轿车,每月统计不同类型的机动车辆数量、占比及增长率驾驶人统计:每月统计驾驶人数量、补换证数量、驾驶证失效数量及增长率交通违法统计:按行政区划、管理部门分组,每月
15、统计不同违法行为的数量及增长率、不同违法行为占比交通事故统计:按行政区划、管理部门分组,每月统计不同事故类型的数量,死亡人数、涉及的机动车数量、行人数量、非机动车数量,及每月重大事故增长率8.3 3.2统计结果输出输出机动车类型占比、驾驶人统计、交通违法统计、交通事故统计结果8.4 业务规则类模型7.2.1适用场景此类模型主要用于检测交管业务中不合规则的场景,如假牌车、套牌车、车辆逾期未检验、报废车辆上路行驶等7.2.2使用数据假牌车识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型;过车数据中的号牌号码、号牌种类、车辆类型、过车时间、设备编号套牌车识别模型:机动车信息表中的号牌号码、号牌
16、种类、车辆类型;过车数据中的号牌号码、号牌种类、车辆类型、过车时间、设备编号、车道编号;卡口设备信息表中的设备编号、车道编号、点位编号、经度、纬度车辆逾期未检验识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型、检验有效期止;过车数据中的号牌号码、号牌种类、过车时间、设备编号报废车辆上路行驶识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型、强制报废期止;过车数据中的号牌号码、号牌种类、过车时间、设备编号7.2.3建模步骤7.2.3.1设置业务规则假牌车识别业务规则:最新过车数据中的车辆在车辆信息表中匹配不到数据,则认为此车辆的号牌为假牌套牌车识别业务规则:最新过车数据中的车辆同时出现
17、在不同的点位编号同时出现,且两个点位之间距离大于500米,认为此车辆为套牌车车辆逾期未检验识别业务规则:最新过车数据中的车辆检验有效期,超出了车辆信息表中检验有效期截止日期,则认为此车辆为逾期未检验报废车辆上路行驶识别业务规则:最新过车数据中的车辆报废日期,超出了车辆信息表中强制报废期截止日期,则认为此车辆为报废车辆上路行驶7.2.3.2基于规则计算假牌车识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表中的号牌号码、号牌种类、车辆类型,如果过车表中的机动车在车辆信息表中关联不到数据,给这辆车打上假牌车标签,标签值为1,否则标签值为O套牌车识别模型:使用最新过车数据中的
18、号牌号码、号牌种类、车辆类型,关联设备信息表的设备编号、车道编号,按车辆号牌号码、号牌种类分组统计求和,筛选求和值大于1的车辆号牌号码、号牌种类,利用这组车辆所在点位的经纬度,计算这两辆车的距离,如果两个点位编号的距离大于500米,给这组车辆打上套牌车标签,标签值为1,否则为0车辆逾期未检验识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表的号牌号码、号牌种类、车辆类型,得到车辆检验有效截止日期,如果当前过车时间大于车辆检验有效截止日期,输出逾期未检验标签,标签值为L否则为0报废车辆上路行驶识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表的号牌
19、号码、号牌种类、车辆类型,得到车辆强制报废截止日期,如果过车时间大于强制报废截止日期,输出报废车辆标签,标签值为1,否则为07.2.3.3模型输出筛选模型输出标签值为1的数据作为模型识别结果假牌车识别模型:号牌号码、号牌种类、过车时间、设备编号套牌车识别模型:号牌号码、号牌种类、过车时间、设备编号车辆逾期未检验识别模型:号牌号码、号牌种类、过车时间、设备编号、车辆检验有效截止日期报废车辆上路行驶识别模型:号牌号码、号牌种类、过车时间、设备编号、强制报废截止日期7.3预测预警类模型7.3.1适用场景此类模型假设目标对象的历史行为规律在未来一段时间保持不变或者变化较小,根据历史数据预测未来,主要用
20、于识别有隐患的机动车和驾驶人,或道路安全评分,如重点驾驶人交通安全风险等级预测、重点机动车交通安全风险等级预测、国省干线安全隐患预警等。7.3.2使用数据重点驾驶人交通安全风险等级预测模型:驾驶人信息表中的驾驶人出生日期、性别、身份证明号码、初次领证日期、驾证期限、累计记分、超分日期、准驾车型、驾驶证状态、有效期止、有效期始、补证次数;违法信息表中的违法行为、违法时间、违法记分数、机动车使用性质、号牌号码、号牌种类;事故信息表中的事故发生时间、事故类型、碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡人数、3日内死亡人数、7日内死亡人数、30日内死亡人数、机动车数量
21、、非机动车数量、行人数量、事故编号;事故人员信息表中的事故编号、身份证明号码、驾驶证种类;其他数据表中的身份证号码、是否吸毒人员重点机动车交通安全风险等级预测模型:违法信息表中的违法行为、违法时间、号牌号码、号牌种类;事故信息表中的事故发生时间、事故类型、碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡人数、3日内死亡人数、7日内死亡人数、30日内死亡人数、机动车数量、非机动车数量、行人数量、事故编号;事故人员信息表中的事故编号、身份证明号码;机动车信息表中的号牌号码、号牌种类、身份证明号码、使用性质、强制报废期止、发牌日期、核定载客国省干线安全隐患预警:道路信息表
22、中的道路名称、道路代码、路面结构、行政区划、管理部门、道路类型、道路物理隔离、地形、公路行政等级、路侧防护设施类型、路段代码、路口id;事故信息表中的路号、路名、公里数、米数、管理部门、事故类型、事故发生时间、能见度、天气、当场死亡人数、重伤人数、轻伤人数、机动车数量、事故认定原因分类、地形;气象信息表中的管理部门、降雨量、降雪量、平均能见度、平均风速、湿滑系数7.3.3建模步骤7.3.3.1算法选择以上模型可以使用分类算法做等级预测和预警,分类算法可以选用的有:决策树、随机森林、逻辑回归、K-近邻算法、神经网络、Adaboost.XGBoost.朴素贝叶斯、支持向量机算法、线性分类器算法、梯
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交管大数据中心业务模型建设规范征求意见稿 交管 数据中心 业务 模型 建设 规范 征求意见
链接地址:https://www.31ppt.com/p-5559089.html