线性回归在餐饮行业评分的影响因素分析的应用研究r——以
上海市火锅餐厅为例
佘朝兵
【摘 要】运用数据挖掘技术中的线性回归算法,对上海市61家火锅餐厅在大众点评网的数据进行处理,分析与评分有关的影响因素,帮助火锅餐厅管理者做出决策.数据挖掘结果表明:朋友之间在餐厅中聚餐的次数、口味、服务质量越高、评分越高;家庭在餐厅聚餐次数、提供夜宵次数、餐厅老字号年数越多,评分越低. 【期刊名称】《科技创新与应用》 【年(卷),期】2018(000)010 【总页数】2页(P168-169)
【关键词】线性回归;影响因素;火锅餐厅 【作 者】佘朝兵
【作者单位】吉首大学张家界学院,湖南 张家界 427000 【正文语种】中 文 【中图分类】F224.31  1 概述
在移动互联网时代,客户选择餐饮的决策方式已经悄然发生改变。过去,客户通过同事、朋友的介绍选择餐厅。而今,虽然上述决策方式还产生作用,但是越来越多
的客户主要选择利用移动互联息选择餐厅,例如依赖“大众点评网”的上其他客户对餐厅的点评信息进行决策。餐厅在“大众点评网”等信息平台上的评分越高,客户选择该餐厅的概率越大。因此在餐饮行业,传统的宣传手段已经无法适应现在的用户的要求。如何提高在“大众点评网”等互联息平台上的评分,已经成为餐饮营销宣传的关键问题。众所周知,服务、环境等因素都可能影响客户的评分,哪些因素是影响客户评分的关键因素呢?通过线性回归算法分析影响餐饮行业评分的关键因素,可有利于餐饮行业管理者为营销宣传提供决策依据。上海是全球著名金融中心,全球人口规模和面积最大的都会区之一。以上海市火锅餐厅为例进行分析,可以为其他城市的餐饮评分影响因素分析提供参考。 2 线性回归算法
回归分析是指通过分析已知的大量数据,发现变量之间的统计关系,构建描述这种关系的模型,最终利用构建的模型预测新的数据。回归分析不仅可以通过指定变量的值预测结果,还可以准确描述指定变量影响结果的程度。 2.1 线性回归算法的基本原理
线性回归是利用统计原理来分析变量之间定量关系的一种方法。该算法主要的目的是通过一个变量来预测另外一个变量的值。线性回归分为一元线性回归和多元线性回归两类。前者是指在回归分析中,只包含一个自变量和一个因变量,并且这两者的关系可以通过直线来描述;后者是指在回归分析中,包含多个自变量和一个因变量,并且变量之间的关系也是直线关系。
在实际生活中,一个结果的出现可能与多个因素有关。因此处理实际问题时,一般将多个因素抽象为多个自变量,将结果抽象为因变量,用多元回归分析方法进行处理。
不妨设 y 为因变量,x1,x2,…,xn为自变量。则多元线性回归方程可表示为y=w1*x1+w2*x2+…+wn*xn+w0;其中w1,w2,…wn表示回归系数,w0是常
规项。回归系数wi表示了第i个自变量对因变量的影响程度,系数为正,则该自变量与因变量正相关;系数为负,则该自变量与因变量负相关。多元线性回归分析就是通过大量数据计算多元线性回归的系数。系数的参数估计一般采取最小二乘法来表示,即要求估计的系数得到的预测值与实际值的误差平方和最小。误差平方和的计算公式如(1)所示:
其中y(i)表示第i个线性方程的因变量的实际值,x(i)是第i个线性方程自变量向量,w(i)第i个线性方程回归系数向量。用矩阵表示如公式(2)所示:
由于采取最小二乘法,因此目标是上述公式中的最小值。通过公式(2)对w进行求导,即可以得到回归系数的公式如下:
2.2 算法步骤
线性回归算法的步骤如下: 步骤1:收集数据;
步骤2:预处理数据特别是对数据进行归一化处理; 步骤3:输入训练数据得出回归系数; 步骤4:根据回归系数,分析回归效果。 3 应用实例 3.1 数据来源
本节通过网络爬虫技术,在“大众点评网”收集上海市61家火锅餐厅的数据。数据集包含了61个样本,每个样本包括店名、点评条数、人均消费额、口味、环境、服务、有无团购、有无外卖、有无订座、朋友聚餐次数、随便吃吃次数、刷卡次数、家庭聚会次数、情侣约会次数、夜宵次数、无线上网次数、休息小憩次数、老字号
年数、免费停车次数、点评分等属性数据。部分实例数据如表1所示;训练样本中属性的排列顺序如表2所示。
表1 数据集部分实例店名 点评条数人均消费额 口味 环境 服务 团购 订座 点评分Mo-Mo牧场 587 138 9 9.1 9.2 无 有 5呷哺呷哺 2013 47 7.3 7 7 无 无 4海底捞火锅 4762 114 9 9.1 9.2 无 有 5 表2 属性排列顺序序号 属性名 序号 属性名 序号 属性名1 点评条数 7 有无外卖 13 情侣约会次数2 人均消费额 8 有无订座 14 夜宵次数3 口味 9 朋友聚餐次数 15 无线上网次数4 环境 10 随便吃吃次数 16 休息小憩次数5 服务 11 刷卡次数 17 老字号年数6 有无团购 12 家庭聚会次数 18 免费停车次数 3.2 数据预处理
由表1的数据可知,部分属性的数值属于离散型数据,例如有无团购、有无订座、有无外卖三个属性的值是“有”、“无”两个类型。为了计算方便,将“无”用数值0表示、将“有”用数值1表示。其次属性的值得数值差距较大,如点评条数的属性的值的区间是 [587,4762],而口味、环境、服务等属性的值在10内。由于属性之间的数值差距较大可能大致求解最优解时迭代多次,收敛速度慢等原因。因此有必要对属性之间的数据进行归一化处理。归一化处理的方法有线性归一化、标准差标准化、非线性归一化等方法。本文采用的是线性归一化方法。该方法的目的是将所有属性值设定在[0,1]区间。具体计算如公式(2)所示。
表3 回归系数w w w w w w w w w 0.167 0.006 0.594 -0.236 0.625 -0.008 -0.044 0.031 1.425 w w w w w w w w w 0.019 0.039 -0.933 -0.383 -0.511 -0.092 0.462 -0.463 0.173
3.3 测试结果
本文利用之前的代码,通过对收集的61个样本数据进行预处理后利用线性回归算法进行训练,算法得到回归系数的结果如表3所示。
表3中得到的回归系数可分成三类,第一类是系数值低于5%;其余绝对值高于5%的系数又可分为系数值为正和负两类。回归系数数值低于5%,可认为该系数对应的自变量对因变量的变化的影响忽略不计。由表3可知,回归系数 w2、w6、w7、w8、w10、w11低于 5%,对应的自变量即人均消费额、有无团购、有无外送、有无订座、随便吃吃次数、刷卡次数等属性对餐厅的评分的影响可忽略。在所有正相关属性中,w9、w5、w3、w16等系数对应的属性值对餐厅评分的影响较大。其他属性值不变的情况下,这些属性值越大,评分越高。这些属性分别是朋友聚餐次数、服务质量、口味、休闲小憩次数。在所有负相关的属性中,w12、w14、w17等系数对应的属性的值对餐厅评分营销较大。其他属性值不变情况下,这些属性的值越大,评分越低。这些属性分别是家庭聚会次数、夜宵次数、老字号年数。 参考文献:
[1]哈林顿.机器学习实战[M].李锐,译.北京:人民邮电出版社,2013.
[2]李瑞,姜新元,秦涛.多元线性回归在大坝变形监测数据处理中的应用[J].黄河水利职业技术学院学报,2017,29(1):17-19.
[3]陈海鹏,卢旭旺,等.基于多元线性回归的螺纹钢价格分析及预测模型[J].计算机科学,2017,44(s2):61-.
[4]胡继礼,杨松涛.线性回归在糖尿病诊断中的应用[J].河南工程学院学报(自然科学版),2011,23(4):57-61.
[5]田秀芹.基于多元线性回归的粮食产量预测[J].科技创新与应用,2017(16):3-4.
[6]李琦,李华新.基于多元线性回归分析的安徽省金寨县域经济发展研究[J].科技创新与应用,2013(07):266.
[7]石伟,刘爱华,张立忱,等.多元线性回归在密山井水位影响因素分析的应用[J].科技创新与应用,2014(01):294.