您好,欢迎来到九壹网。
搜索
您的当前位置:首页3-11 基于网络关键词搜索的机器学习方法对旅游人数的预测

3-11 基于网络关键词搜索的机器学习方法对旅游人数的预测

来源:九壹网
基于网络关键词搜索的机器学习方法对

旅游人数的预测

云南省统计局 白雄文、晏鸿雁、李文彬

摘 要

在“大数据”背景下,传统经典统计假设理论受到质疑,模型驱动方式正在逐步向数据驱动方式转变。不同于经典时间序列模型的建立,本文基于百度指数,通过机器学习的方法,对到云南旅游的国内旅游者人数进行了分析和预测。本文的创新之处在于未采用皮尔逊相关性分析,而是利用随机森林的特性,对搜索关键词进行相关性检验及筛选,由此得到模型的变量,在比较人工神经网络、支持向量机、多元自适应回归样条等方法对训练集数据拟合误差大小的基础上,选取人工神经网络方法建立模型,预测旅游人数。由于旅游者在网络上搜索相关信息的时间与外出旅游的时间不一致,本文对模型进行了改进。结果显示,模型预测精度较高,拟合程度较好,可应用于旅游管理和相关企业的规划。

关键词:机器学习 网络搜索 云南旅游

前 言

对于传统经典统计学来说,模型是在一定的前提假设下建立的,而实际情况是假设往往不能成立,造成现实与理论模型不一致。“大数据”概念出现后,基于网络搜索数据的失业率预测、流感预测等,由于其较强的时效和预测的精准性,越来越得到社会的认可,与此同时,机器学习方法不断更新,在没有或者少有假设的前提下,模型驱动方式正在向数据驱动方式转变。

一、问题的提出

2014年8月21日,出台了《关于促进旅游业改革发展的若干意见》,提出“旅游业对促进经济发展、提高人民生活质量、培育和践行社会主义核心价值观具有重要意义”。近年来,随着经济快速增长,旅游业得到较快的发展,不仅是拉动内需的重要动力之一,而且还是人民生活水平不断提高的标志,对旅游人数的分析和预测,无疑对优化旅游发展环境、完善旅游交通服务、保障旅游安全、旅游宣传推广、规划编制等方面有着重大现实的意义。

云南作为全国旅游资源比较丰富的省份之一,每年吸引着大批游客前来旅游消费,但近年来,随着国内其他省份旅游业竞争力的不断增强,云南传统的旅游优势正在不断减弱,作为云南支柱产业之一的旅游业,对云南经济社会的发展起着重要作用。对国内来滇旅游人数进行预测,为管理和企业决策提供相对准确的依据,以此增强云南旅游业的竞争力,意义重大。

二、文献回顾

国内外利用网络搜索对经济活动进行分析和预测,主要集中在价格、就业和总产出等方面,比如通过互联网收集数据构建价格指数,对价格走势进行研判的美国麻省理工学院“每日网上价格指数”,国家统计局上海调查总队与“1号店”合作开展的CPI统计试点网络采价,联合国“全球脉动计划”利用社会媒介信息对失业进行的调查,环球银行金融电信协会(SWIFT)利用金融交易数据,构建

SWIFT指数预测GDP增长速度等案例。

研究所用的搜索平台分别是谷歌搜索解析平台和百度指数。由于操作简单、结果清晰、界面友好,使得两个平台很受研究者的喜爱,使用者众多。 网络搜索工具的诞生和迅速发展,利用搜索数据对旅游人数进行有效预测成为可能。黄先开等人(2013)利用百度指数,对北京故宫景区旅游人数进行分析预测,任乐等人(2014)也是利用百度指数对国内旅游人数进行预测,姜东民等人(2013)则是利用谷歌趋势对世园会客流量预测。但是以上研究建立模型的方法都是用经典传统的时间序列模型,即通过皮尔逊相关性确定变量,进行单位根检验,协整检验,格兰杰因果检验等,最后利用均方误差对预测精度进行测度。

1

个别研究者把人工神经网络方法引入旅游人数预测。王天等人(2005)在比对指数平滑法、差分自回归移动平均模型(ARIMA)和人工神经网络方法用于旅游人数预测精度差异后,得出人工神经网络预测效果最好。遗憾的是,他们采用的是数据来自于滞后的传统统计报表,而不是“大数据”。

网络搜索关键词的选取关乎模型的成败。研究者倾向于在建立基本搜索词后,应用皮尔逊检验挑选与研究目的相关程度较大的关键词(任乐等[2014]、张崇[2012])。或者经验选取关键词,利用关键词挖掘工具或网站进行验证后确认的方法选取(黄先开等[2013])。也有在选取基础关键词后,加入相关性和领先阶数参数选取最终关键词(刘颖等[2011])。

以上研究虽然从研究方法上有所突破,但模型的建立仍旧沿用传统方法。本文基于百度指数平台,尝试从“大数据”角度来构建模型,采用机器学习方法,对搜索关键词进行相关性分析,并对模型的选取、改进、确定以及预测进行研究,提高预测精度。

三、数据整理

(一)数据来源

来滇国内旅游人数取自云南省旅游发展委员会。搜索数据取自百度指数平台(http://index.baidu.com)。百度指数是在百度网页搜索和百度新闻搜索数据基础上得到的,以天为单位进行统计,用户可以得到分地区、分时间段的数据。百度指数自2011年1月1日开始发布,本文关键词日均搜索量数据获取时间与此同步。 数据来源于百度指数平台自发布日起至2014年6月,共42个月。本文数据分为训练集(2011年1月~2013年12月)和测试集(2014年1月~2014年6月)。为了避免出现有偏差的结果,最终的测试集不用于变量选择过程。 本文所用软件为免费的R3.0.3版。

(二)选取变量

本文主要围绕旅游出行方向、目的地、旅游费用等词语选取网络搜索关键词。云南旅游资源丰富,昆明、大理和丽江是云南最著名的三个旅游城市,也是全国

2

知名旅游胜地,基于此,初步选取了“云南旅游(bdtour)”、“云南昆明(bdkm)”、“云南大理(bddl)”、“云南丽江(bdlj)”、“云南旅游攻略(bdexpl)”、“云南旅游价格(bdprice)”、“云南地图(bdmap)”、“云南旅游景点(bdspot)”等八个词语,利用百度指数进行搜索量统计。

初步检查数据发现,“云南旅游景点(bdspot)” 搜索量存在一个异常值,观测值远远高于均值。通过线性插值方法,对原值进行了替换。

在得到八个基本搜索词的百度指数后,本文并没有与国内来滇旅游人数进行传统的皮尔逊相关性分析,而是利用随机森林方法决定变量的取舍。随机森林方法除了用于模型的分类和回归,其中一个特性就是通过计算入选变量被删除后增加的误差,对变量的重要性进行估计。

数据集被分为训练集和测试集,用训练集建立随机森林模型,随机森林将估计变量的重要性分数。当依次删除每一个变量时,将得到随机森林标准化的均方差。根据其重要性,就可以得到所需的变量。根据图1,基本搜索词“云南旅游攻略(bdexpl)”、“云南大理(bddl)”、“云南旅游(bdtour)”列为关键词进入模型。

图1 随机森林方法显示的变量重要性

来源:作者计算

四、建模方法比较

时间序列建模的机器学习工具主要有人工神经网络(Artificial Neural Network,

ANN)、支持向量机(Support Vector Machine, SVM)以及多元自适应回归样条

3

(Multivariate Adaptive Regression Spline,MARS)等,本文尝试从以上三种方法中选择其一建立模型,预测旅游人数。

(一)建模方法

1、人工神经网络。人工神经网络模拟生物神经元的特性和工作机制,具有自我学习、容错、调整的能力,已经成为处理非线性问题的工具之一。工作原理是,通过分层组织神经元(计算单元),一般分为两层,第一层是输入层,包含了自变量数据的输入。最后一层是输出层,即因变量的预测值。两层中间有一个隐藏层,主要是针对输入数据,应用某个减少误差规则计算、优化数据,通过反复迭代,直到满足收敛准则(图2)。

图2 人工神经网络

来源:http://baike.baidu.com/view/19743.htm?fr=aladdin#4_1

2、支持向量机。支持向量机方法1995年从贝尔实验室诞生以来,由于其在解决小样本、非线性和高维空间良好的识别优势,越来越受到重视。工作原理是,把低维空间向量映射到高维空间,通过选用适当的核函数,就可以区分向量,得到分类函数。在高维空间里,建立一个最大间隔超平面,在这个超平面两边,建立两个平行的超平面,使得两个平行超平面间隔的距离最远,即两个平行超平面距离越远,则分类误差越小(图3)。

图3 支持向量机

4

来源:http://blog.csdn.net/v_july_v/article/details/7624837

3、多元自适应回归样条。多元自适应回归样条是1991年Friedman提出的,特点是在处理非线性关系时,不需要传统经典假设,模型具有较好的解释能力,是处理高维数据的强有力的回归方法。工作原理是,“通过样条函数来模拟复杂的非线性关系,它将整个非线性模型划分为若干个区域,在每个特定的区域由一段线性回归直线来拟合”(邢玮俊等)。主要通过设定不同的基函数进行建模。其一般形式是:

mars(x)c0ciBix

i1k 其中 ci 是常数,Bix 是基函数。

(二)方法选择

本文选用标准化均方误差(Normalized Mean Squares Error, NMSE)来选择和评价模型。其定义为:

NMSEyiyiininˆiy2

y2ˆi 表示第i个观测值的预测值,y 表示观测值的 其中,yi 表示观测值,y5

算术平均值。分子是模型预测性能,分母是基准模型的预测性能。NMSE取值范围在0~1之间,值越小,模型性能越好,反之亦然。

对四个变量数据计算后,三种模型的NMSE见表1。可以看出,人工神经网络的预测效果较好,多元自适应回归样条次之,支持向量机最弱。因此,我们选择人工神经网络建模进行实证研究。

表1 三种模型的NMSE

NMSE

ANN

SVM

MARS

0.1253675 0.3713023 0.3466110

来源:作者计算

五、实证研究

人工神经网络建模的过程包括在输入层中输入变量和在输出层中建立目标变量,选择隐藏层节点个数,使用不同学习算法构建模型和预测等几个步骤。

(一)输入变量和目标变量

人工神经网络对变量的尺度十分敏感,需要对即将进入ANN的数据要进行标准化处理。标准化处理公式如下:

x

其中,x 是观测值, 是观测值均值, 是观测值的标准差。 处理后的数据分为三个输入变量和一个目标变量36个观测值组成训练集进入ANN。输入层有三个节点,输出层一个节点。

(二)选择隐藏层节点个数

“目前,还没有研究确定隐层的节点数的最优选择方法,多数情况通过训练多个网络并估计他们的误差来确定隐层的节点数”(邢玮俊等)。一般来说,节点过多虽然拟合较好,但会产生冗余,出现过拟合现象(overfitting)。反之,节点

6

过少,会影响收敛。本文利用selectNNET()这个函数实现对节点的选择。根据

AIC信息准则(表2),选择节点数为 1个。

表2 AIC和BIC信息准则测试结果

size

AIC

BIC

1 2 3 4 5

来源:作者计算

432.9472 442.9472 452.9472 462.9472 467.3566

442.4484 460.3660 478.2835 496.2011 508.5281

(三)确定学习算法

模型使用反向传播算法控制权重的更新率,选择最大迭代次数控制权重收敛过程。

(四)模型预测结果

通过对训练集数据的计算,NMSE = 0.1254,得出小于1的结果,拟合效果较好(图4)。

把测试集数据放入预测模型后,发现NMSE = 0.3412,虽然仍然小于1,但是相比训练集,误差有所增大。模型有改进的空间。

7

图4 旅游人数与预测人数拟合效果

来源:作者计算

(五)改进模型

针对网络搜索旅游关键词与实现外出旅游有一定的滞后期(图5),把旅游人数因变量滞后一期放入模型,模型质量得到很大改进。通过计算训练集,模型的NMSE降至0.0000205,把模型应用到测试集后,NMSE= 0.00067。图6显示测试集的拟合情况。

图5 旅游人数与网络搜索关键词时间序列

来源:作者计算

8

图6 旅游人数与预测人数拟合效果

来源:作者计算

六、结论

本文在“大数据”背景下,利用百度搜索指数,对到云南旅游的国内旅游者人数进行了分析和预测。不同于建立经典时间序列模型的方法,而是通过机器学习,利用随机森林的特性,对搜索关键词进行相关性检验,筛选后得到模型变量,然后在人工神经网络、支持向量机、多元自适应回归样条方法中,选取人工神经网络方法建立模型,预测旅游人数。由于旅游者在网络上搜索相关信息的时间与外出旅游的时间不一致,本文进一步对模型进行了改进。模型预测结果显示,标准化均方差仅为0.00067,说明预测精度较高,模型拟合程度较好,可以应用于旅游管理和相关企业的规划。

由于时间序列模型是带有时间顺序的序列,并不能用机器学习中的交叉验证方法对模型进行评价,这无疑对模型可靠性的检验有所欠缺。

此外,从传统经典抽样统计学角度来说,网络调查的对象只是能够使用网络的人,调查结果也只是反映部分网民的倾向,并不能代表全体总体,属于有偏调查。

9

参考文献

[1]黄先开,张丽峰,丁于思.百度指数与旅游景区游客量的关系及预测研究-以北京故宫为例[J].旅游学刊,2013(11)

[2]姜东民,崔丽敏,管田超.基于网络搜索量的世园会客流量预测[J].中国管理信息化,2013(4)

[3]Luis.Torgo.数据挖掘与R语言.北京:机器工业出版社.2013

[4]刘颖,吕本富,彭赓.网络搜索对股票市场的预测能力:理论分析与实证检验[J].经济管理,2011(1)

[5]马建堂.大数据在统计中的探索与应用.北京:中国统计出版社.2013 [6]彭赓,苏亚军,李娜.失业率预测研究-基于网络搜索数据及改进的逐步回归模型[J].现代管理科学,2013(12)

[7]任乐,崔东佳.基于网络搜索数据的国内旅游客流量预测研究-以北京市国内旅游客流量为例[J].经济问题探索,2014(4)

[8]宋文光.利用人工神经网络预测消费变动指标[J].理论新探,2005(7) [9]王天,何雍庆.旅游业趋势预测方法比较[J].北京交通大学学报,2005(6) [10]吴喜之.统计学:从数据到结论.北京:中国统计出版社.2013 [11]吴喜之.统计学-基于R的应用.北京:中国人民大学出版社.2014

[12]杨树新,董纪昌,李秀婷.基于网络关键词搜索的房地产价格影响因素研究[J].财经大学学报,2013(3)

[13]百度百科http://baike.baidu.com/view/19743.htm?fr=aladdin#4_1 [14]v_JULY_v的博客http://blog.csdn.net/v_july_v/article/details/7624837

[15]新华网2014年8月21日.印发《关于促进旅游业改革发展的若干意见》. http://news.xinhuanet.com/travel/2014-08/21/c_126900663.htm

[16]邢玮俊、王宁、莫群青http://www.sescn.org.cn/zyxx/2013dxsjmgs/yxj/B12.pdf

10

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务