November2007No.11
基于数据挖掘技术的企业智能竞争情报系统研究
闫晓妍
(郑州大学,郑州450001)
摘 要! 现代意义的企业竞争是经济发展的动力所在,许多大中型企业都非常重视竞争情报策略的制定,纷纷建立企业竞争情报系统,以提高企业竞争力。随着网络技术、数据库技术的不断发展,将数据挖掘技术引入企业竞争情报系统是一个崭新的、有重要意义的课题。本文从数据挖掘的含义和一般过程入手,分析了数据挖掘的相关技术及数据挖掘在企业竞争情报系统中的应用,重点探讨如何构建基于数据挖掘技术的企业竞争情报系统。
关键词! 数据挖掘;竞争情报;企业竞争情报系统
Abstract! Moderncompetitionbetweenenterprisesisthedynamicforceofeconomy.Manylargeenterprisespaymoreattentiontoinformationstrategy,andtheybuildenterprisecompetitionintelligencesystemsinordertoenhancetheircompetitiveability.Alongwiththedevelopmentofnetworktechnologyanddatabasetechnology,enterprisecompetitionintelligencesystemsbasedondataminingisanewandimportanttopic.Thispaperintroducestheconceptofdataminingandthegeneralprocess,analyzesrelevanttechnologiesanditsapplicationsintheenterprisecompetitionintelligencesystem,thendiscusseshowtobuildenterprisecompetitionsystembasedondataminingtostrengthenthecompetitiveofenterprise.
Keywords! datamining;competitiveintelligence;enterprisecompetitiveintelligencesystem
中图分类号!F27005
文献标识码!A
文章编号!1008-0821(2007)11-0187-03
现代意义的企业竞争是经济发展的动力所在,∀适者生modeling)、分析关联(linkanalysis)、偏差检测(deviation
存,优胜劣汰#这一市场竞争法则的客观存在迫使企业必detection)、建立依赖模型(dependencymodeling)和概括总须不断提高自身的竞争力。企业想要顺应环境变化,做出结(summarization)。在国外,数据挖掘主要应用在金融业、最优决策,赢得竞争优势,就必须在充分了解和分析竞争零售业等行业,涉及市场营销、风险管理、欺诈侦测环境及竞争对手的基础上,制定科学的竞争战略。竞争情(Frauddetection)、客户关系的建立和维护等过程。
报可以说是企业赖以生存的继人才、资金、技术之后的第2 数据挖掘
四种要素,是现代企业竞争战略的关键部分。
数据挖掘(DataMining)是指从大型数据库或数据仓库1 企业竞争情报与竞争情报系统
中的大量数据中提取辅助决策的关键性知识,这些知识是∀竞争情报#是从英文CompetitiveIntelligence翻译过来隐含的、未知的、非平凡的及潜在有用的信息或模式,其
的,简称CI。关于竞争情报,国际上有来自不同领域、不目的是为了提高市场决策能力、环境监视、风险预警、在
同研究方向的学者的多种解释,如Cottrill和Kotler、斯丹文经验模型基础上预测未来趋势等,把握行业结构的进化,∃德迪约的过程说,认为竞争情报是一种过程,即情报的采跟踪正在出现的连续性和非连续性变化,以及分析现有和集、加工和分析过程;也有不少学者认为竞争情报是一种潜在竞争对手的能力和方向,从而帮助企业赢得竞争优势。产品,是上述过程的产物,德迪约∃伯恩哈特、戈登都持有这些知识的表现形式可以是概念(Concepts)、规则此观点。我国学者包昌火认为:∀竞争情报是关于竞争环(Rules)、规律(Regularities)、模式(Partems)、约束(Con境、竞争对手和竞争策略的信息和研究。它既是一种过程,straints)、可视化(Visualizations)等。
又是一种产品。过程是对竞争情报的搜集和分析;产品是21 数据挖掘的一般过程
指由此形成的情报或策略。#竞争情报的目的是为企业经营数据挖掘是一种新的信息处理技术,其主要特点是对决策提供情报保障,提高企业的核心竞争力。
数据库中的大量数据进行抽取、转换、分析和其他模型化企业竞争情报系统是企业为了增强竞争力而建立起来处理,并从中提取辅助决策的关键性数据。数据挖掘过程的,以人工智能为主导、信息网络为手段,人机结合的战包括数据准备、挖掘过程和模式的解释和评价等几个阶段。略决策系统和咨询系统。竞争情报系统通过对竞争对手的数据挖掘的一般过程如图1所示。
追踪分析及企业自身和外部竞争环境的相关竞争性情报的211 数据准备阶段
收集、存储、处理、分析,并以适当方式为企业决策者提数据准备对于数据挖掘的成功应用至关重要,数据准供信息支持。数据挖掘过程主要通过聚类分析(clustering/备阶段需要进行数据集成、数据选择、数据缩减和转化。segmentation)、可视化(visualization)、预测模型(predictive
数据集成从多个文件、异构数据库中提取并集成数据,需
收稿日期:20070712
基金项目:本文是河南省教育厅自然科学基金项目(编号:200787003)的研究成果之一。
作者简介:闫晓妍(1985),女,郑州大学信息管理系06级硕士研究生,研究方向:网络信息资源管理,已发表论文1篇。
187%
企业情报
工作
现代情报
2007年11月第11期November2007No.11
图1 数据挖掘的一般过程
要解决语义二义性,规范数据格式,消除冗余、重复的数警以及潜在顾客发现。据,同时对数据进行清洗,消除噪声数据、异常数据及不完整数据;数据选择是在相关领域专家知识的指导下,辨别出需要进行分析的数据,缩小处理范围,提高数据挖掘
%
222 决策树分析法
决策树是一种树型结构的预测模型,决策树分析首先利用决策树算法寻找数据库中具有最大信息量的属性作为训练集建立决策树的根节点,再根据属性值大于或小于根节点的属性值建立树的分支,直至所有的属性都被归入树型结构中,然后对决策树进行剪枝处理,最后把决策树转化为规则,即从每一个叶节点得出决策规则。其中树的非终端节点表示属性,叶节点表示所属的不同类别。与神经元网络最大的不同在于其决策制定的过程是可见的,其输出结果较为直观、易于理解。决策树方法主要用于分类挖掘,通常用于市场细分、产品定位、贷款风险分析等。223 最近相邻技术
最近相邻技术就是依据∀Doasyourneighborsdo#原则,相邻的数据必然有相近的属性或行为的规律,通过发现那些接近新情况的旧情况,并假设新情况的结果将于那些旧情况(已知案例)的大多数一致,即通过K个与之最相近的历史记录的组合来辨别新的记录,有时也称这种技术为与K最近邻方法。最近相邻技术可以用于聚类、偏差分析等任务。
224 人工神经网络
人工神经网络是一种通过训练来学习的非线性预测模型,具有对非线性系统数据的快速拟合能力,可以完成分类、聚类、特征提取等多种数据挖掘任务。其最大特点在于它具有学习能力,可以通过学习大量样本数据,来获取输入、输出之间的函数关系。人工神经网络采用信息分布式存储方式,具有很强的联想能力,而且识别速度快,很适合处理大量的数据,进行海量数据挖掘。人工神经网络在事务数据库的分析和建模方面应用广泛。225 可视化
采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互的分析数据。这是一类辅助方法,数据可视化极大的扩展了数据表达能力和人们对数据的理解能力,这在数据挖掘中是非常重要的。可视化是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知,便于找出潜在的知识和信息。可视化是这样一个过程,它将非空间的信息用图像、曲线、三维图形和动画显示,充分利用人们对可视模式快速识别的自然能力去进行观测、浏览、判别和理解信息。在这个过程中,人们利用计算机系统从屏幕上观察交互图形、图像并通过可视模型处理信息。
的效率和质量;另外在数据在经过挖掘前,必须要加以精炼处理,降低复杂数据的维数,减少有效变量的个数,以
减轻数据挖掘工作的复杂性。212 挖掘知识和信息
挖掘知识和信息是数据挖掘过程的重要环节,包括确定挖掘的任务类型,即首先提出数据挖掘的假设,并通过数据挖掘过程来验证这个假设。在确定挖掘任务的基础上,选择合适的挖掘技术,不同类型的数据有不同的特点,特定的用户有特定的需求,数据挖掘应该选用与之相关的算法来实现,如分类模型常用决策树来实现,聚类常使用聚类分析技术,关联发现和序列发现常用来挖掘数据间的依赖关系。然后根据选定的算法,确定适当的模型和参数集合,在模式空间进行反复迭代搜索,直至从数据集合中抽取出隐藏的、新颖的模式。213 模式的解释和评价
根据用户的决策目标,对数据挖掘的模式进行解释和评价,过滤出有用的知识。数据挖掘阶段发现的模式可能不满足用户要求,这些模式需要经过进一步处理,包括消除无关的、多余的模式,过滤出支持企业决策的关键信息,利用可视化技术将有潜在有用的模式以图形或逻辑可视化的形式表示,转化为用户可理解的语言。此外还包括解决发现结果与以前知识的冲突,利用统计方法对模式进行评价,可通过反复多次的挖掘,重新选取数据,调整参数,以得到最优、最适合的模式。
企业情报工作
22 数据挖掘的关键技术
数据挖掘是综合运用统计学、数据库、机器学习、神经网络、经济计量学等多门学科的技术,尤其是近几年来,自然语言理解、语义关联分析、词频分布统计、语料学研究等可以用于进行情报分析的技术方法和工具,已经成为数据挖掘技术的重要研究方向,并形成了大量软件产品。221 关联规则分析法
关联规则是指在数据库的记录中挖掘出满足一定条件的依赖关系,它揭示出数据间未知的依赖关系,实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立通常并不是确切的关系,而是具有一定置信度的可能值,一般用∀支持度#和∀可信度#来测度以淘汰那些无用的关联规则。关联规则分析法可用于超市的货架摆放和库存预
1882007年11月第11期November2007No.11
现代情报
3 基于数据挖掘技术的企业智能竞争情报系统设计
智能化信息处理技术是情报学研究与应用的前沿领域,企业竞争情报系统要想解决信息过载问题,发挥其决策支持的功能,必须引入先进的信息处理技术。企业竞争情报系统一般由竞争情报收集子系统、数据预处理子系统、数据挖掘子系统及服务子系统构成,各部分模块功能如下:
对手,并可用于反竞争情报;根据用户信息,可以将用户进行聚类;对用户进行关联分析,可以找到用户消费规律、潜在用户、易失市场等;长期跟踪行业网站,抽取企业相关的关键信息,可以提供市场预警。
34 服务子系统模块
利用可视化技术对数据分析结果以适当方式与用户进行人际交互。竞争情报服务子系统是为整个竞争情报系统提供一个信息交流和共享的平台,竞争情报服务子系统应具有情报知识树分类导航、情报预警、多途径检索、最新推送服务等功能。通过对挖掘的结果进行分析评价,生成31 收集子系统模块
根据企业确立的情报需求,收集、整理各种信息,并自动识别与抽取所需要的文本信息,最终形成一个有关企业竞争情报的文本集合。竞争情报收集子系统是竞争情报工作的基础,其收集信息的速度和质量将极大的影响效能竞争情报分析报告,提交企业决策者,为决策提供服务和和效益。企业竞争情报的获取可以来自于企业外部网络信依据。该子系统模块使用可视化技术将分析结果以适当方息,如企业门户网站、行业网站、竞争对手网站、Web服式及时反馈给适当的部门和人员,用图形等多维地显示数务器日志文件等;也可以来自于企业内部,如以企业的据,揭示数据之间的关联和隐藏在数据背后的信息,多途MIS、ERP等信息系统为中心,企业日常业务积累的数据信径智能检索技术使用户可以在图形界面上直接对空间对象息形成的关系型数据库、文档数据库等;还可以来自于媒进行查询和分析,提供一种新的决策支持方式,从而极大体、报纸、杂志等。不同来源的数据表现形式多种多样,地提高竞争决策的水平。
可以是报表、图形、音频、视频、演示文稿等,竞争情报收集系统的主要任务是将不同形式、不同来源的数据通过4 结束语
面对企业内外呈爆炸式增长的信息,如何从中提炼出数据采集器收集起来,并进行过滤、去重规范化处理,存对企业有益的关键信息,是现代企业面临的一个挑战,企储在情报数据仓库中,为竞争情报分析做好基础数据准备。业竞争情报工作的分析功能和决策研究功能至关重要。人因此,对于不同形式、不同渠道收集的数据,竞争情报收们把数据视为知识的源泉,竞争情报不是简单的数据堆砌,集子系统应具备数据录入、格式转换、信息自动归类等基本功能。
也不是简单的数据加工,而是要注入创造性的劳动,形成32 数据预处理子系统模块
有价值的、能反映客观事物本质的情报产品,服务于企业的科学决策。竞争情报系统个性化定制功能可以为企业提从正式渠道如外部公开信息源、内部工作报告、信息供最贴切的决策支持,情报来源更加广泛,预警更加准确管理系统等收集到的一般都是量化了的信息,易于整理排序;而利用非正式渠道,即通过电话采访、实地调查、问及时。数据挖掘作为一种新的商业信息处理技术,是解决卷调查等方式收集到的信息多为陈述性的信息,且误差较企业竞争情报系统处理海量数据的关键,研究数据挖掘技大,无法直接用于数据挖掘。数据预处理子系统主要是对术在企业竞争情报系统中的应用,对增强我国企业的竞争
数据采集器收集到的数据(主要是非结构化和半结构化的力有重要意义。数据)进行提炼、固化、过滤、清洗、转换以及整合,导入数据仓库和数据集市中结构化存储,使之更加有序化,参考文献以适应特定的情报分析问题,为数据挖掘提供符合要求的[1]刘树民.竞争情报挖掘企业的知识资源[M].南数据。
京:东南大学出版社,2004.
33 智能数据挖掘子系统模块
[2]AmirMHormozi,StacyGiles.Datamining:ACompetitive竞争情报分析是竞争情报系统的核心,主要借助于系WeaponforBankingandRetailIndustries[M].InformationSys统提供的各种分析模型以及数据挖掘工具对数据仓库中存temsManagement,2004:62-71.
储的信息进行综合分析,进行情报自动分类、自动摘要、[3]苗杰,倪波.面向集成竞争情报系统的数据挖掘应用自动提取、自动聚类等智能化处理分析,充分挖掘信息中研究[J].情报学报,2004,(4):443-450.
隐藏的价值。该子系统主要包括数据分析以及模式发现工[4]沈丽容.竞争情报中国企业生存的第四要素具,其中的数据挖掘工具是企业实现数据深层次挖掘的核[M].北京:北京图书馆出版社,2003.
心技术,可以在大量的数据中发现未知的关系、模式以及[5]王知津,等.竞争情报[M].北京:科学技术文献出趋势等,功能包括概念描述、关联分析、分类与聚类、偏版社,2005.
差检测、时序演变分析、信息摘要、信息抽取、元数据挖[6]王众托.知识系统工程[M].北京:科学出版社,掘等。随着互联网技术的发展,网络已经成为企业信息的2004.
重要来源,对文本资源的挖掘技术显得更为重要,基于文[7]张晓翊.企业信息检索浅析[J].江汉大学学报,本内容的自动分类、自动摘要、自动聚类以及相似性检索2003,(6):51-53.
等技术的成熟,为企业竞争情报提供了强有力的技术支持,[8]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情如分析Web服务器日志及登陆数据可以帮助系统找到竞争
报技术,2005,(1):38-43.
189%
企
业
情报
工
作
因篇幅问题不能全部显示,请点此查看更多更全内容