(12)发明专利申请
(10)申请公布号 CN 110889092 A(43)申请公布日 2020.03.17
(21)申请号 201911143885.X(22)申请日 2019.11.20
(71)申请人 北京市交通运行监测调度中心
地址 100161 北京市丰台区六里桥南里甲9
号首发大厦
申请人 北京工业大学
(72)发明人 王晶晶 何寒梅 毛力增 魏瑞聪
李东岳 钱慧敏 翁剑成 杨蕊 史春辉 (74)专利代理机构 北京思海天达知识产权代理
有限公司 11203
代理人 沈波(51)Int.Cl.
G06F 17/18(2006.01)G06Q 10/04(2012.01)
权利要求书3页 说明书9页 附图5页
G06Q 50/30(2012.01)
CN 110889092 A(54)发明名称
一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法(57)摘要
本发明公开了一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,包括:轨道交易数据、轨道静态数据及大型活动数据预处理;基于轨道交易数据的短时大型活动周边轨道站点客流量预测。以数据库分析和数据挖掘技术为依托,对轨道原始交易数据进行清洗,并进行周边轨道站点客流集散特征分析。建立影响因素集,构建梯度提升决策树算法,并用学习率和最优迭代次数进行模型参数优化,更为准确预测和解释轨道站点客流特征,明确预测结果评价指标。本方法基于轨道交易数据构建短时性大型活动周边轨道站点客流预测模型,对大型活动引起的客流进行定量的预测和分析,为后续客流预测、预警及客流管控相关工作提供直接的数据支撑。
CN 110889092 A
权 利 要 求 书
1/3页
1.一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,包括以下步骤:
步骤1,轨道交易数据及其他数据处理;步骤1.1,提取原始交易数据主要字段内容;步骤1.2,获取轨道静态数据及大型活动数据;步骤1.3,面向轨道换乘站点客流提取的原始交易数据清洗;步骤2,大型活动期间交通影响区域的轨道站点客流集散特征分析;步骤2.1,周边轨道站点的确定;步骤2.2,影响区域的轨道站点客流需求计算;步骤3,轨道站点客流影响因素分析;轨道站点客流影响因素分析,考虑到大型活动最终的客流由背景交通量及诱增交通量两部分组成,在建立影响因素集时需要分别分析两部分客流受影响的因素,其中背景交通量考虑轨道站点类型、日期属性、时间段、月份;诱增客流分为活动属性因素即活动内因与客观因素即活动外因两大类;活动内因有活动性质、区位因素;活动外因是指活动举办期间,包括气候、社会因素,对活动客流水平造成影响的外部因素;将因素进行整合,选取选定相应的训练集和预测集,得到最终的影响因素集;
步骤4,模型参数定量化及优化;
在短时大型活动周边轨道客流量预测方法中,由于各参数所代表的物理涵义不同,因此存在着量纲上的差异;
对于模型参数优化,{max_depth=4,learning_rate=0.1,n_estimators=600}与{max_depth=5,learning_rate=0.1,n_estimators=160}两种参数组合的模型性能好,选取{max_depth=5,learning_rate=0.1,n_estimators=160}参数组合;其中,max_depth为决策树的最大深度;learning_rate为学习率;n_estimators为基学习器数目;
步骤5,基于梯度下降决策树构建短时性大型活动周边轨道站点客流预测模型;采用的提升树算法隶属于集成学习中的Boosting算法,Boosting算法的学习机制是共迭代构建M个不同的个体决策树:h(x,a1),…,h(x,aM),其中第n个决策树表示为:
fn(x)=fn-1(x)+βan) (1)nh(x;其中,fn-1(x)为从第1个决策树到第(n-1)个决策树;βn表示第n棵树的节点权重;假设第(n-1)轮迭代得到的学习器为fn-1(x),损失函数为L(x,fn-1(x)),那么第n轮迭代的目标就是找到一个βan),使本轮的损失函数L(x,fn-1(x))最小;nh(x;
梯度提升决策树的回归算法总结如下:输入训练样本集:T={(x,y1),(x,y2),…,(xm,ym)},(1)初始化弱学习器
其中,f0(x)为初始化回归树;L(yi,c)为损失函数;i为迭代轮数;(2)对迭代轮数i=1,2,…T有:a)对样本i=1,2,…m,计算负梯度
2
CN 110889092 A
权 利 要 求 书
2/3页
其中,τf(xi)为迭代i轮的回归树;ti为负梯度方向;b)利用(xi,τ拟合一颗CART回归树,得到第t颗回归树,其对应的叶子节it),i=1,2,…m,点区域为Rtj,j=1,2,…J;J为回归树t的叶子节点个数
c)对叶子区域j=1,2,…J,计算最佳拟合值
其中,Rtj为第t棵数的叶子节点区域;cij为最佳拟合值,即该区域Rtj中yi的平均值;d)更新学习器
其中,I()为指示函数;
(3)得到强学习器f(x)的表达式
2.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤1.1提取的轨道原始交易数据字段包括:记录ID、交易类型、SAM卡号、交易序号、交易时间、行业代号、一卡通顺序号、卡类型、交易状态、定期计次票类型、进站线路编号、进站站点编号、进站时间、出站线路编号、出站站点编号、旅程总金额共16个字段。
3.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤1.2获取轨道静态数据包含线路编号、线路名称、站点编号、站点名称、经度、纬度共6个字段;大型活动数据包含大型活动举办日期、星期几、气象信息、活动名称、举办场馆、活动上报规模及开始和结束时间。
4.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤1.3面向轨道换乘站点客流提取的轨道原始交易数据筛选与剔除规则如下:
(1)剔除刷卡数据记录中进站站点和出站站点相同的记录;(2)删除同站进出、进出站时间差大与4小时及员工卡数据。
5.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤2.1周边轨道站点的确定,考虑到大型活动的举办地与活动性质的差异,活动类型、内容、规模的不同大型活动所影响的时空范围不同,须对其周边轨道站点影响时空特征进行分析;首先通过一定的距离阈值对大型活动周边轨道站点进行筛选,通过分析其进出站客流量较之前历史同期大型活动情况的进出站客流是否有异常,鉴别受影响站点。
6.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤2.2影响区域的轨道站点客流需求计算,短时性大型活动举办导致其周边需求剧增,导致周边轨道站点进、出站量增加;大型活动期间交通影响区域
3
CN 110889092 A
权 利 要 求 书
3/3页
的轨道站点客流需求计算方法如下:
S=D+O (6)其中,S为真实客流;D为背景客流;O为活动客流。
7.根据权利要求1所述的一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,所述步骤4中模型参数优化方法,用学习率和其对应的最优迭代次数一起决定模型的拟合效果;考虑到步长和迭代次数的不同组合,找到每个模型在达到最优评分时树的深度。
4
CN 110889092 A
说 明 书
1/9页
一种基于轨道交易数据的短时大型活动周边轨道站点客流量
预测方法
技术领域
[0001]本发明涉及一种基于轨道交易数据的短时大型活动影响区内轨道站点客流量预测方法,属于公共交通数据挖掘应用和服务评价领域。背景技术
[0002]随着国民经济的显著增长,近年来各类国际大型活动相继在国内举办,以文艺活动、体育赛事、展览展销为代表的短时性大型活动更是举办频繁,大型活动的特性决定了需要在较短时间内完成大规模客流的集散,因此对周边公共交通系统、路网系统及慢行交通系统造成极大的压力。因此预测未来客流的走势已成为相关部门关注的重点,该工作也能对轨道交通运营组织迈向智能化及轨道站点应急处置决策起到支撑作用。[0003]由于我国轨道交通发展迅猛,但相应的客流预测手段相对滞后,且主要以中长期预测为主,对大型活动引起的客流进行定量的预测和分析往往不够深入。申请号为201810376559.2的中国发明专利公开了一种城市轨道交通站点进出站客流预测方法该方法,首先,根据自动售票系统统计轨道交通站点进出站客流量,然后建成周围环境要素的回归模型,最后预测新开站点客流量。该方法重点是基于周边建成环境对进出站客流的影响下预测轨道站点的客流,不能体现不同因素下轨道站点客流特征及差异。申请号为201810474426.9的中国发明专利公开了一种基于AFC的地铁站内楼扶梯客流量预测方法。该发明利用AFC刷卡数据采用BP算法和traingdx学习规则根据关联出站闸机组的出站客流量预测扶梯断面客流量。但该方法对轨道内扶梯客流进行预测,仅关注了常态化情况下的客流预测,没有考虑大型活动等事件驱动型对客流的影响。大型活动条件下的客流预测具有变化梯度大,客流波动大等特点,预测难度更大。申请号为201810024755.3的中国发明专利公开了一种轨道交通站点短时客流状态预测方法及装置。该方法根据视频数据获取轨道交通目标站点及目标站点上游和下游相邻站点的客流量和客流速度,生成客流和速度时间序列,建立向量误差修正模型以进行目标站点客流量和客流速度的预测。但该方法无法考虑到短时性大型活动对客流造成的突发性增长。[0004]随着大城市轨道线网的日益完善、用户规模的不断扩大和交易量的增长,传统依靠交通大调查的调查结果分析客流规律,存在样本少、精度低等一系列弊端,轨道交易数据作为一种时效性强、格式统一、准确度高的交通数据源,能够全天候记录轨道站点的客流进出量,并且基本实现了全轨道网络交易数据的集中式存储。利用轨道交易数据,以数据库分析和数据挖掘技术为依托,进行周边轨道站点客流集散特征分析,更为准确解释轨道站点客流特征,明确预测结果评价指标。因此,通过本发明基于轨道交易数据构建短时性大型活动周边轨道站点客流预测模型,对大型活动引起的客流进行定量的预测。发明内容
[0005]本发明目的在于提出一种基于轨道交易数据的短时大型活动周边轨道站点客流
5
CN 110889092 A
说 明 书
2/9页
量预测方法,用于剖析不同类型大型活动的属性、天气等诸多因素对车站客流特征模式和空间分布规律,构建基于梯度下降决策树的短时性大型活动周边轨道站点影响时段内客流预测模型,进行精准预测,实现对客流分级并制定相关单位的工作预案。[0006]为了实现上述目的,本发明采用以下技术方案。
[0007]一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法,其特征在于,包括以下步骤:[0008]步骤1,轨道交易数据及其他数据处理;[0009]步骤1.1,提取原始交易数据中主要字段内容;[0010]轨道交易数据表共有16个字段内容,记录了大量的交易信息,同时也蕴藏着重要的客流信息。主要包括:记录ID、交易类型、进站线路编号、进站站点编号、出站线路编号、出站站点编号、进站时间、出站时间等,见表1。[0011]表1交易数据字段说明
[0012]
步骤1.2,获取轨道静态数据及大型活动数据;
[0014]轨道静态数据包含线路编号、线路名称、站点编号、站点名称、经度、纬度共6个字段,见表2。大型活动数据主要包含大型活动举办日期、星期几、气象信息、活动名称、举办场馆、活动上报规模及开始和结束时间。
[0015]表2轨道交易数据静态关系对应表字段
[0013]
6
CN 110889092 A
说 明 书
3/9页
[0016]
步骤1.3,面向轨道换乘站点客流提取的轨道原始交易数据清洗;
[0018]剔除错误数据和筛选有效数据的规则如下:[0019](1)剔除原始交易数据记录中进站站点和出站站点相同的记录;[0020](2)删除同站进出、进出站时间差大与4小时及员工卡数据;[0021]步骤2,大型活动期间交通影响区域的轨道站点客流集散特征分析;[0022]步骤2.1,周边轨道站点的确定;
[0023]考虑到大型活动的举办地与活动性质的差异,活动类型、内容、规模的不同大型活动所影响的时空范围不同,须对其周边轨道站点影响时空特征进行分析。首先通过一定的距离阈值对大型活动周边轨道站点进行筛选,通过分析其进出站客流量较之前历史同期大型活动情况的进出站客流是否有异常,鉴别受影响站点。[0024]步骤2.2,影响区域的轨道站点客流需求计算;[0025]短时性大型活动举办导致其周边需求剧增,导致周边轨道站点进、出站量增加。大型活动期间交通影响区域的轨道站点客流需求计算方法如下:[0026]S=D+O (6)[0027]其中,S为真实客流;D为背景客流;O为活动客流。[0028]步骤3,轨道站点客流影响因素分析;[0029]轨道站点客流影响因素分析,考虑到大型活动最终的客流由背景交通量及诱增交通量两部分组成,在建立影响因素集时需要分别分析两部分客流受影响的因素,其中背景交通量考虑轨道站点类型、日期属性、时间段、月份;诱增客流分为活动属性因素即活动内因与客观因素即活动外因两大类;活动内因有活动性质、区位因素;活动外因是指活动举办期间,包括气候、社会因素,对活动客流水平造成影响的外部因素;将因素进行整合,选取选定相应的训练集和预测集,得到最终的影响因素集;[0030]步骤4,模型参数定量化及优化;
[0031]在具体短时大型活动周边轨道客流量预测方法中,由于各参数所代表的物理涵义不同,因此存在着量纲上的差异。这种异量纲性是影响对事物整体评价的主要因素,所以在评价之前要将参数统一进行标准化;[0032]对于模型参数优化,{max_depth=4,learning_rate=0.1,n_estimators=600}与{max_depth=5,learning_rate=0.1,n_estimators=160}两种参数组合的模型性能较好,选取{max_depth=5,learning_rate=0.1,n_estimators=160}参数组合作为优选组合;其中,max_depth为决策树的最大深度;learning_rate为学习率;n_estimators为基学习器数目;
[0033]步骤5,基于梯度下降决策树构建短时性大型活动周边轨道站点客流预测模型;
[0017]
7
CN 110889092 A[0034]
说 明 书
4/9页
采用的提升树算法隶属于集成学习中的Boosting算法,Boosting算法的学习机制
是共迭代构建M个不同的个体决策树:h(x,a1),…,h(x,aM),其中第n个决策树可表示为:[0035]fn(x)=fn-1(x)+βan) (1)nh(x,[0036]其中,fn-1(x)为从第1个决策树到第(n-1)个决策树;βn表示第n棵树的节点权重;[0037]假设第(n-1)轮迭代得到的学习器为fn-1(x),损失函数为L(x,fn-1(x)),那么第n轮迭代的目标就是找到一个βan),使本轮的损失函数L(x,fn-1(x))最小;nh(x;
[0038]梯度提升决策树的回归算法总结如下:[0039]输入训练样本集:T={(x,y1),(x,y2),…,(xm,ym)}[0040](1)初始化弱学习器
[0041][0042][0043][0044][0045]
其中,f0(x)为初始化回归树;L(yi,c)为损失函数;i为迭代轮数。
(2)对迭代轮数i=1,2,…T有:a)对样本i=1,2,…m,计算负梯度
其中,τf(xi)为迭代i轮的回归树。ti为负梯度方向;
[0047]b)利用(xi,τ拟合一颗CART回归树,得到第t颗回归树,其对应的it),i=1,2,…m,叶子节点区域为Rtj,j=1,2,…J;J为回归树t的叶子节点个数[0048]c)对叶子区域j=1,2,…J,计算最佳拟合值
[0049][0050]
[0046]
其中,Rtj为第t棵数的叶子节点区域;cij为最佳拟合值,即该区域Rtj中yi的平均d)更新学习器
值。
[0051][0052][0053][0054][0055]
其中,I()为指示函数。
(3)得到强学习器f(x)的表达式
发明与现有技术相比,具有以下明显的优势和有益效果:
[0057](1)以数据库分析和数据挖掘技术为依托,对轨道原始交易数据进行提取、剔除和筛选、轨道内部换乘识别等预处理,提高了数据质量,降低了数据获取成本。[0058](2)轨道站点客流预测影响因素众多、数据量大,本发明基于将大型活动期间客流分为背景客流及诱增客流量,分别分析其客流影响因素,通过交易数据对大型活动引起的客流进行定量的预测和分析。[0059](3)构建基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的短时性大型活动周边轨道站点影响时段内客流预测模型,GBDT处理复杂的非线性关系非常灵
8
[0056]
CN 110889092 A
说 明 书
5/9页
活;其可以同时处理不同类型的数据等。因此该方法具有预测速度快,精度高的优点。附图说明
[0060]图1为轨道交易数据预处理流程图;[0061]图2为数据标准化处理后结果;[0062]图3为东大桥站出站量预测;[0063]图4为东四十条站出站量预测;[0064]图5为团结湖站出站量预测;[0065]图6为东大桥站进站量预测;[0066]图7为东四十条站进站量预测;[0067]图8为团结湖站进站量预测;
具体实施方案
[0068]本实施例选取以北京工人体育馆举办的某一短时性大型活动为计算对象,获取的大型活动数据中发现北京工人体育场多发生短时性大型活动,通过轨道交易数据、静态数据和大型活动数据计算站点在2017年7月-2018年12月间的一场短时性大型活动的周边轨道客流量预测。
[0069]本实施例包括以下步骤:[0070]步骤1,轨道交易数据及其他数据处理;[0071]通过获取北京市轨道交易数据、轨道静态数据及大型活动数据,包含记录ID、交易类型、进站线路编号、进站站点编号、出站线路编号、出站站点编号、进站时间、出站时间等共16个字段,以及短时性大型活动数据。[0072]步骤2,大型活动期间交通影响区域的轨道站点客流集散特征分析;[0073]北京工人体育场在举办大型活动时候受影响站点明确,受影响站点均为场馆周边不同线路距离场馆最近的站点,并且不同站点影响程度存在差异。一般情况下,轨道站点客流在活动开始前2.5小时客流出现增长,与活动结束后1小时内客流有明显增长,在这两个时间段内,将产生极高的交通需求,最长在活动开始前3.5个小时客流将出现增长。通过选取当天周边轨道站点客流数据及同期未有大型活动数据进行对比,得知三条线路各有一个受影响站点,分别为2号线的东四十条站,6号线的东大桥站及10号线的团结湖地铁站。将需要计算的相关轨道线路站点基础数据及轨道原始交易数据导入到Oracle数据库中。按照图1所示的数据预处理流程对原始数据进行剔除和筛选等预处理。[0074]步骤3,轨道站点客流影响因素分析;[0075]轨道站点客流影响因素分析,考虑到大型活动最终的客流由背景交通量及诱增交通量两部分组成,在具体预测时没办法将其完全分开,因此在建立影响因素集时需要分别分析两部分客流受影响的因素。[0076](1)背景交通量
[0077]背景交通量考虑轨道站点类型、日期属性、时间段、月份。[0078](2)诱增客流
[0079]诱增客流受诸多因素影响,总体可以分为活动属性因素即活动内因与客观因素即
9
CN 110889092 A
说 明 书
6/9页
活动外因两大类。活动内因主要有活动性质、区位因素等;活动外因是指活动举办期间,包括气候、社会因素等在内的,对活动客流水平造成影响的外部因素。将因素进行整合,选取选定相应的训练集和预测集,得到最终的影响因素集。[0080]步骤4,模型参数定量化及优化[0081](1)参数定量化
[0082]在北京工人体育馆周边轨道客流量预测中需要将参数进行标准化处理,见表3,依据参数标准化处理规则及最终处理后结果,见图3。[0083]表3参数标准化处理对照示例表
[0084]
[0085]
(2)模型参数优化
[0086]用学习率和其对应的最优迭代次数一起决定模型的拟合效果,同时考虑到步长和迭代次数的不同组合,还可以找到每个模型在达到最优评分时树的最佳深度。基于正则化参数不同组合的模型性能评分如下表所示,其中学习器个数为该学习率下的最优个数。[0087]表4不同参数组合的模型评分
[0088]
在本模型中,{max_depth=4,learning_rate=0.1,n_estimators=600}与{max_
depth=5,learning_rate=0.1,n_estimators=160}两种参数组合的模型性能较好,选取{max_depth=5,learning_rate=0.1,n_estimators=160}参数组合作为优选组合。其中,max_depth为决策树的最大深度;learning_rate为学习率;n_estimators为基学习器数目。[0090]步骤5,预测结果分析;
[0089]
10
CN 110889092 A[0091]
说 明 书
7/9页
(1)站点出站量预测值
[0092]工人体育场周边受影响的轨道站点分别为东大桥、东四十条及团结湖三个站点,通过对比起预测值与真实值预测时段内平均精度分别为93.67%、90.76%及89.61%(见图3-5),总体预测精度较高,对大型活动期间轨道交通客流预警能提供相应的支撑。[0093]a)东大桥站点预测值与真实值走势基本一致,平均精度为93.67%,客流峰值时段运行精度保持在90%以上,预测精度较高,见表5;[0094]b)东四十条站点预测值与真实值走势基本一致,平均精度为90.76%,部分时段因基数较小,预测精度相对较低,客流峰值时段运行精度保持在90%以上,预测精度较高,见表6;
[0095]c)东四十条站点预测值与真实值走势基本一致,峰值客流预测值相对偏高,平均精度为89.61%,见表7。
[0096]表5东大桥站出站量精度分析
[0097]
[0098]
表6东四十条出站量精度分析
[0099]
11
CN 110889092 A
说 明 书
8/9页
[0100]
[0101]
表7团结湖出站量精度分析
[0102]
[0103]
2)站点进站量预测值精度分析
[0104]东大桥、东四十条及团结湖三个站点,通过对比其预测值与进站真实值(见图6-8),预测时段内平均精度分别为80.68%、78.96%及78.11%,主要受其他时段内客流量基数小,导致其预测精度相对较低,但峰值时段内预测精度较高,见表8=10[0105]表8东大桥站11月7日进站量精度分析
[0106]
[0107][0108]
表9东四十条11月7日进站量精度分析
12
CN 110889092 A
说 明 书
9/9页
[0109]
[0110]
表10团结湖站11月7日进站量精度分析
[0111]
13
CN 110889092 A
说 明 书 附 图
1/5页
图1
14
CN 110889092 A
说 明 书 附 图
2/5页
图2
图3
15
CN 110889092 A
说 明 书 附 图
3/5页
图4
图5
16
CN 110889092 A
说 明 书 附 图
4/5页
图6
图7
17
CN 110889092 A
说 明 书 附 图
5/5页
图8
18
因篇幅问题不能全部显示,请点此查看更多更全内容