基于会话的web用户行为习惯分析研究
作者:房明 李耸
来源:《商情》2015年第27期
[摘要]:web用户的行为习惯分析技术的研究就是通过捕捉web用户的来源IP、访问方式、使用浏览器版本、使用操作系统版本、访问时段、停留时间、搜索关键字、链接跳出率、点击热点、视觉热点、鼠标轨迹、键盘输入等信息用以分析web用户的性别、年龄、职业、兴趣爱好、个人习惯等隐含信息,从而根据web用户访问的特点做出预测性分析,挑战用户心理学,对网站改进服务质量、提高服务效率提供帮助。
[关键词]:web用户 行为习惯 分析研究
1引言
web用户的行为习惯分析原本是属于心理学范畴的一个概念,人的所有行为都离不开心理,行为是心理的一个外在表现,只有真正分析出了web用户的心理行为和习惯,才能够进一步了解web用户浏览网站的行为模式。web用户的行为习惯分析技术的研究就是通过捕捉web用户的来源IP、访问方式、使用浏览器版本、使用操作系统版本、访问时段、停留时间、搜索关键字、链接跳出率、点击热点、视觉热点、鼠标轨迹、键盘输入等信息用以分析web用户的性别、年龄、职业、兴趣爱好、个人习惯等隐含信息,从而根据web用户访问的特点做出预测性分析,挑战用户心理学,对网站改进服务
龙源期刊网 http://www.qikan.com.cn
质量、提高服务效率提供帮助。
2研究方法
2.1数据采集
web用户的行为数据可以从浏览器、HTTP协议数据和应用交互数据三个方面获取,而这些数据的采集是web用户行为模式挖掘的一个关键步骤,是保证web用户行为模式挖掘结果准确性的重要前提。
当前web用户行为数据采集技术主要从对存放于服务器上的web日志数据进行分析和净化入手,目的是消除日志中的无用数据并提取用户访问会话。在这方面,现在普遍采用的方法是基于日志的用户会话识别技术,大部分研究都采用设定访问时间阈值的方式来划分用户访问会话,即设定一个时间阈值,超过这个值的访问记录都将被视作新会话处理。但是,由于网络环境中本地缓存、代理服务器和NAT技术的广泛应用,使得web日志中的数据并不足够准确。
日志数据的复杂性和不准确性对以日志分析为基础的数据采集方法造成很大挑战,数据的不准确直接影响到用户行为模式挖掘的准确性。主动式采集是在浏览器交互数据和HTTP协议数据两方面进行用户会话数据的采集技术,使用javascript脚本将对挖掘有价值的用户行为数据存放于客户端的cookie文件中,为改善用户体验,接下来可以使用AJAX技术与服务器端程序进交互,将cookie文件中的信息传送到服务器端程序处理并存入用户行为数据库,为接下来的数据挖掘提供分析数据。而如果web用户禁用
龙源期刊网 http://www.qikan.com.cn
cookie,则可以利用URL重写技术,将session id加密后作为查询字符串的一部分追加到这些网页中的每个链接中,实现对用户行为跟踪,从而解决使用web日志进行分析挖掘方式无法准确识别用户会话的问题。
2.2web用户行为模式挖掘
海量的web用户访问信息数据中隐含着大量的有价值、有规律的信息,将这些具有规律性的信息提取出来并加以分析和整理,使之成为用户行为模式并应用到网站服务的改善工作中去,能够提高用户访问的有效性,使网站服务更有针对性、更智能。
web用户行为模式中的用户访问浏览的序列模式识别是有效率的,这种模式识别即是从海量访问信息中识别出用户浏览页面的先后访问顺序,将每个用户在会话周期内的访问序列作为一个数据项,然后利用数据挖掘技术中的相关算法对海量数据项进行挖掘,传统的挖掘算法仅仅是对用户频繁访问路径进行挖掘,并没有考虑到用户对于页面节点的哪部分内容感兴趣,也没有考虑到通过用户在某页面节点的停留时间来判断感兴趣的程度,web用户行为模式可以在用户兴趣度的量化指标角度加以研究,将用户兴趣度与用户访问路径相结合的方式更加具体的来挖掘用户行为模式,为网站架构的改善提供有效的决策支持。
web用户行为模式挖掘另外的一个重点是关联规则挖掘。关联规则挖掘主要用于发现用户之间、页面之间以及用户浏览页面和上网行为之间存在的潜在联系。例如,如果浏览A页面的一半以上的web用户都要浏览B页面,这显然给网站管理者提供了一条重要参考,可以考虑要在A页面中加入B页面的链接,诸如此类。
龙源期刊网 http://www.qikan.com.cn
行为模式挖掘可为网站推荐系统的实现奠定基础,网站推荐系统以用户行为模式为基础进行更有针对性的网页推荐服务,将用户感兴趣的页面动态组织起来自动的推荐给用户浏览,从而大大提高网站的智能化和人性化。
2.3web用户行为模式分析
采用各种技术挖掘出来的web用户行为模式数量庞大、表达晦涩,如果没有合适的分析工具和机制辅助,很难使得数据挖掘结果得到真正的有效利用,要解决这一问题就需要模式分析的可视化技术,利用图形化的方法来表现复杂的数据模式,帮助网站决策者理解挖掘结果之间的关系。
目前数据挖掘模式分析可视化方面采用最多的是IDL(交互式数据语言),该语言是面向矩阵、语法简单的第四代可视化语言,它支持OpenGL图形加速、量化可视化表现、集成数学与统计学算法、方便的数据输入输出方式、跨平台图形用户界面工具包、连接ODBC兼容数据库及多种程序连接工具等,是目前科学数据可视化方面较好工具。将IDL应用在用户行为模式可视化表示方面,同时结合知识查询机制,通过有效的筛选和聚集,不仅能够快速方便的获取知识还可以直接获得辅助决策的附加信息。
2.4web用户行为模式应用
目前,web用户行为模式挖掘应用最广泛的领域是web推荐系统,当前领域内有两种实现方法:由用户行为模式挖掘中的关联规则挖掘总结出用户访问页面的潜在联系并根据此结果对网站内容进行动态调整,不断根据用户当前访问的页面向其推荐具有一定关
龙源期刊网 http://www.qikan.com.cn
联性的其他页面;通过使用过滤技术过滤掉用户不感兴趣的内容从而实现个性化推荐,过滤技术可分为内容过滤和协作过滤。随着互联网的发展,web用户行为模式将得到更多更有效的应用。
3结束语
基于会话的web用户行为习惯分析,对于用户心理学、数据挖掘等理论在网络中的实际应用具有积极的推进作用。利用会话可以实现一个用户在多个页面间切换时能够保存个人信息的特性,而采用基于会话方式的用户行为习惯研究方法,可以将每个用户会话看作是一系列包含基本请求和参数值对的用户请求,当用户访问应用时被记录下来。基于会话,利用web数据挖掘技术和信息可视化技术,可以为web用户行为习惯分析研究提供更好的支持,更好地保证用户行为习惯分析数据的准确性和完整性,对进行web用户行为习惯的研究具有指导性意义,从而对帮助优化网络资源、改进互联网体系结构起到积极的推进作用。
因篇幅问题不能全部显示,请点此查看更多更全内容