您好,欢迎来到九壹网。
搜索
您的当前位置:首页基于高层语义的视频检索研究

基于高层语义的视频检索研究

来源:九壹网
维普资讯 http://www.cqvip.com 168 2007,43(18) Computer Engineering and Applications计算机工程与应用 基于高层语义的视频检索研究 张治国,刘怀亮,马志辉,张 毅,赵 娜 ZHANG Zhi—guo,LIU Huai-liang,MA Zhi—hui,ZHANG Yi,ZHAO Na 西安电子科技大学经济管理学院.西安710071 School of Economic&Management,Xidian University,Xi’an 710071,China E—mail:zzgxhj@163.com ZHANG Zhi-guo,LIU Huai-liang,MA Zhi-hui,et a1.Research on video retrieval using high—level semantic.Computer En- gineering and Applications,2007,43(18):168-170. Abstract:Video semantic retireval iS one of the most popular search issue in video retrieval today.Most video retrieval techniques are lOW—level feature based and no—semantic.These feature are abstract and quite difierent from the semantic concepts in human thought.To go beyond low—level similarity and access video data content by semantics,how can we bridge the gap between the low—level features and high—level semantics.How can we develop the model of video semantic retireva1.In this paper,semantic video anderstand,semantic video analysis,semantic video extract are discussed.in order to design a model of semantic video retrieva1. Key words:high—level semantic;video retireval using high—level semantic;Support Vector Machines(SVM);model of video semantic retrieva1 摘 要:视频语义检索的研究是目前研究的热点之一。现有的视频检索系统技术多是基于底层特征的、非语义层次的检索。与人类 思维中所能理解的高层语义概念相去甚远,这严重影响视频检索的实际效果。如何跨越底层特征和高层语义的鸿沟.用高层语义 概念进行视频检索是当前研究的重点。通过对视频内容的语义理解、语义分析、语义提取的简要概述,试图构造一种视频语义检索 模型。 关键词:高层语义;基于高层语义的视频检索:支持向量机;视频语义检索模型 文章编号:1002—8331(2007)18—0168—03文献标识码:A中图分类号:TP391 1 引言 丰富时空信息的视频数据所描述的内容标注准确。后者是利用 随着科学技术迅猛发展,计算机处理能力的不断增强.网 视频本身的底层特征.如颜色、纹理、形状和运动模式等进行标 络中数据的表现形式亦呈多样化,其中视频数据成为网络中的 引。将视频镜头切割、关键帧提取等功能运用到已有的图像检 重要资源。如何从浩如烟海的网络数据资源中实现对含有丰富 索系统中,转而采用相对较成熟的自动获取图像帧底层特征来 时空信息的视频数据检索成为人们关注的焦点问题。 “逼近”语义概念。但其存在的主要问题是:(1)由于视频数据的 视频数据本质上是由文本、视频、声音、图像等多种媒质融 底层特征不惟一,很难确定查询的视频例子;(2)底层特征对视 合而成。这些媒质之间并非孤立的而是相互之间存在语义上的 频的标引与人对视频的理解还存在较大差异。以上两种方法都 关联。因此,对视频检索综合分析各种媒质在视频数据中所蕴 是基于非语义层面的.与人们思维中习惯使用的高层语义概念 涵的丰富的语义信息,才能检索得到符合人们要求的视频片 相去甚远。由于底层特征和高层语义之间存在语义鸿沟(Se. 段。目前,对视频检索主要集中在基于文本的视频检索(TBVR) mantic Gap),在语义概念层次上进行视频内容的描述和操纵 和基于内容的视频检索(CBVR)。前者需要对视频文件用文本 面临巨大困难Ⅲ。跨越语义鸿沟,实现基于高层语义的视频检索 方式进行标引,文本是用来表达高层语义的一种常用形式,然 成为当前多媒体检索领域的研究热点。 后用文本方式的数据库管理系统来完成检索。但其存在的主要 问题是:(1)网络中海量视频数据进行人工标引,工作量巨大, 2视频语义检索分析 不切实际;(2)由于标引主体认识上的差异性,不同的人对同一 2.1视频数据结构化 段视频数据的理解不同:(3)用有限的几个关键字难以将具有 视频数据是一种非结构化的数据,对视频数据的结构化是实 基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.70503022)。 作者简介:张治国(1978一),男,硕士研究生,研究方向为多媒体信息检索与数据挖掘;刘怀亮(1974一),男,博士,副教授,硕士生导师,信息管理系 主任,研究方向为基于内容的多媒体检索与数据挖掘;马志辉(1983一),男,硕士研究生,研究方向为多媒体信息检索与数据挖掘;张毅 (1982一),男,硕士研究生,研究方向为多媒体信息检索与数据挖掘、信息资源开发与利用;赵娜(1982一),女,硕士研究生,研究方向为多 媒体信息检索与数据挖掘。 维普资讯 http://www.cqvip.com 张治国,刘怀亮,马志辉,等:基于高层语义的视频检索研究 现视频数据检索的前提。将视频数据从结构上自顶向下按语义概 念抽象表示成5个粒度,即视频序列(Video List)、场景(Scene)、 镜头组(Shot Group)、镜头(Shot)以及关键帧(KeyFrame)。在视频 数据的结构化处理中,首先用视觉特征对视频序列进行镜头分 2007,43(18) 169 种方法会对镜头缓慢移动造成误识别 。Wengang充分利用视 频中声音在镜头边界有改变的特征,同时联合音频和可视图像 进行边界探测.提高了镜头分割的准确性 。 语义对象往往与视频帧中所对应区域的特征有很强的关 联.所以对于语义的提取而言,区域分割和视频对象分割具有 重要作用[91。在区域分割方面,现有技术可对均质区域实现自动 割.然后根据一定的规则进行关键帧提取,最后用相关性规则进 行场景聚类。这样形成5层描述的结构化视频数据。视频数据层 次化模型如 1所示。 图1 视频数据层次化模型 场景是一组语义上相关联及时间上相邻的连续镜头序列, 是视频信息的最小的语义单位;镜头组是物理镜头和语义场景 间的连接层,是由时间上相邻近的镜头或视觉上相似的镜头组 合而成。不同的镜头组成有语义联系的场景;镜头是视频检索 的基本单位.是摄像机一次操作所得到的连续视频组成,视频 帧序列中往往有很强的相关性;视频关键帧是用于描述一个镜 头的关键图像帧,通常能够反映一个镜头的主要内容。 2.2视频语义分析 视频语义分析包括镜头检测、区域分割和视频对象分割、关键 帧选取和语义提取等。 镜头检测技术的研究已经比较成熟,镜头边界检测算法的 效率和准确度也不断提高[21。镜头切换时,视频数据将发生一系 列的变化,表现在颜色差异突 增大,新旧边缘的远离,对象形 状的改变和运动的不连续等方面.镜头边界检测的目的是寻找 这些变化规律。一般而言,同一镜头内各视频帧之间的差异较 小.而不同镜头的视频帧间差异较大[31。镜头切换的方法有两 类:突变和渐变。突变是指前一个镜头的尾帧被下一个镜头的 首帧快速代替.突变类边界占大多数:渐变是指前一个镜头的 尾帧被下一个镜头首帧缓慢代替.其中包括淡人(Fade in)、淡 出(Fade out)、溶解(Dissolve)、滑人(Wipe)等。对突变类的边界 检测,在像素域和压缩域中的效果都比较满意。基于像素域的 边界检测式依据统计 的两帧相邻网像像素域的变化超过域 值的像素点的个数域第二个域值进行比较,若超出.则说明存 在镜头突变.判断其为镜头的边缘。但该方法对镜头的移动和 物体的运动比较敏感。H_L.zhang等人在域值比较前,对图像进 行矩阵滤波预处理来减少镜头移动和噪声对像素的影响 .获得 了较好的效果 F.Arman等人通过提取视频压缩域特征来检测 镜头边缘目。这种方法不对图像进行解压.而是直接用JPEG压 缩图像帧的DCT系数作为相邻帧相似度衡量的标准。渐变类边 界检测算法在像素域中有一定突破.而在压缩域中的算法还有 待于提高E61。Zhang等人提出了双域值比较法,当两帧间差在域 值d 和 之间时认为渐变开始,将帧间差开始累加,直到累加 和大于 时认为有渐变,当帧间差小于d.时认为渐变结束。这 分割.并且分割准确度较高l】01。Sigal等提出一种在视频序列中 实时分割皮肤区域的新方法ll】]。视频对象分割方面,现阶段可 实现用户监督下的半自动视频对象提取l】21。Chen在视频对象分 割时采用首帧分割,自动对象跟踪和边界精化技术,在用户监 督下此方法可实现高效率的半自动视频语义对象分割[1]]。Zhou 通过区域提取和运动预测两项技术.解决了视频语义对象提取 的速度问题E 41。 视频关键帧语义提取是通过对视频关键帧的分类来获取 语义概念.即利用颜色、纹理、形状等底层特征将关键帧图像采 用相关分类方法分成具有语义概念的类别,从而获取视频关键 帧语义。视频关键帧是一个镜头的代表帧,而镜头又是视频流 的基本单元,那么以此可推出镜头和视频片段所蕴涵的语义信 息。这实现了关键帧图像的底层特征和高层语义的连接,从而 得到视频片段的语义描述。视频关键帧语义提取中使用支持向 量机(SVM)的分类方法具有较高的准确度ll51。 2-3视频语义提取 如何能高效地获取视频中包含的语义信息?常用方法是基 于视频字幕的方法和基于视频中的音频信息的方法。 基于视频字幕的方法是将与视频相依附的字幕中获取文 本信息来获取视频语义概念。视频字幕可以分为两类:场景字 幕和标注字幕。场景字幕是场景的一部分,属于原始字幕,是在 录制过程中环境和物体本身的文字。尽管有些场景字幕也蕴涵 了语义信息.但由于场景字幕出现具有很强的偶然性并且不同 的场景问字幕之间的差异较大.难以寻找所有场景字幕的共同 特征进行识别。因此在视频语义提取中暂时不考虑这类字幕的 语义信息:而标注字幕是在视频后期制作过程中合成到视频流 中的.是为解释视频内容而添加进去的。因此,一般认为标注字 幕是对视频流中发生的情景的描述.为视频流提供了高度概括 的语义信息。综合音频特征与可视信息进行语义分类来生成视 频语义描述信息,实现视频语义提取。Asano用自动适应波束 形成将声音按音源位置分类.然后结合可视特征探测视频中讲 话的语义事件f16『。Miyauchi综合利用时域上语义相关的字幕、 声音和可视特征进行语义事件探测 。张宏江等人提出了相关 反馈自动标注的方法来描述图像、视频以及利用音频信息对视 频对象进行自动标注1]81。 3视频语义检索模型 3.1 视频语义检索模型概述 通过对视频语义检索的分析,可知视频语义库的建立是视 频语义检索的核心.即底层特征向高层语义的映射变换。视频 语义检索模型应由3部分组成:底层特征提取模块、视频语义 查询模块、底层特征向高层语义映射变换模块。底层特征空间 包括颜色、纹理、形状等特征,这些特征一般可以从视频数据中 直接提取。但底层特征对用户是不可见的,只有将其映射到高 层语义空间,才能使用户识别:底层特征向高层语义映射模块 主要使映射变换模型的构建,即语义概念分类模型的构建。目 维普资讯 http://www.cqvip.com 170 2007,43(18) Computer Engineering and Applications计算机工程与应用 前,诸如概率统计方法、统计学习方法、基于规则推理的方法、 结合特定领域的等方法.均在视频语义概念分类中虽有一定的 应用但效果还不理想,有待于进一步完善与发展。而目前基于 支持向量机(SVM)的方法在语义概念分类中显示出一定的优 越性;视频语义查询模块使用户通过查询接口输入相应的查询 语义,系统应能在视频语义库中进行信息匹配。 并将查询结果 返回用户.用户根据本次查询结果与自己期望结果问的相关 性,向系统提交相关反馈信息。系统则根据用户的反馈来自动 调整查询的内容继续检索,使查询结果向用户期望最佳“逼 近” 视频语义检索模型如图2所示。 图2视频语义检索模型 3.2基于支持向量机(SVM)方法的语义概念分类模型 视频语义检索的目的就是要利用人思维中高层语义概念来 进行视频内容的处理。而要达到此目的关键是需要在分析和理 解视频内容的基础上,用人类意识思维中的高层语义概念将视 频内容表示出来。虽然人工智能技术已能使计算机接受人的简 单语义概念,但要使计算机准确理解视频语义概念仍是个难题。 支持向量机算法是一种专门研究有限样本预测学习的方 法.与传统的统计学习相比,SVM算法没有以传统的经验风险 最小化原则作为基础。而是建立于结构风险最小化原理基础之 上.发展成为一种新型的结构化学习方法。它能很好的解决有 限数量样本的高维模型的构造问题,而且所构造的模型具有很 好的预测性能。SVM算法的很多成功应用为经验非线性预测 方法提供了理论基础和统一的理论框架。 视频检索中样本的数量往往有限,因此基于支持向量机的 主动标注和主动学习语义概念分类器,进行语义概念提取来尝 试跨越语义鸿沟是研究方向之一。这种以支持向量机为基础的 标注器建立在少量标注的数据上,对每次新数据学习后分类器 参数都会相应更新。如Naphade利用SVM作为主动标注和主动 学习的内在分类器,进行语义概念分类提取效果较好[191。文献[151 中.曹建荣、蔡安妮提出了使用多类支持向量机对风光记录片 视频关键帧进行分类来提取语义的方法,将关键帧底层特征与 高层语义相连接,从而得到视频片段的语义描述,为基于高层 语义的视频检索奠定基础。 4结束语 通过对基于文本的视频检索和基于内容的视频检索的分 析.引出基于高层语义的视频检索的研究。如何建立视频语义 检索模型,如何跨越底层特征与高层语义问的鸿沟等都是目前 研究的重点。本文通过对视频的语义理解、语义分析、语义提 取,试网构造一种视频语义检索模型。其中关键部分是底层特 征与高层语义之间的变换,映射关系.即视频语义概念分类识 别方法。由于支持向量机是基于小样本就可以估计和决定分类 器且较少产生过学习现象,在训练时又具有较好的性能.所以 构建基于支持向量机的视频语义分类模型是值得进一步研究 的课题之一。(收稿日期:2007年1月) 参考文献: [1]Li B,Sezan I.Semantics ports video analysis:approaches and new applications[C],/IEEE Proceedings of 2003 International Conference on Image Prodessing,Barcelona,Span,2003:17—20. [2]魏维,游静,刘风玉,等.语义视频检索综述[J1_计算机科学,2006,33 (2):1—7. [3]张继东,陈都.基于内容的视频检索技术『J].电视技术,2002(8):17. [4]Zhang H L,Kankanhalli A,Smliar S W.Automactic partition of full motion video[J].Multimedia System,1 993,1(1):10—28. [5]Arman F,hsu A,chiu M Y.Image processing on encoded video se— quences[J].Multimedia System,1994,2(1):21 1-219. [6]Mezarls V.Real—time compressed—domain spatiotemporal segmenta— tion and ontologies for video indexing and retrieval[J].IEEE Trans— actions on Circuits and Systems for Video Technology,2004,14 (5):359—362. [7]Zhang H J.An integrated system for content—based video retrieval and browsing[J].Pattern Recognition,1997,30(4):643—657. [8]Wengang C,De X.Content-based video retrieval using audio and visual clues【C]//2002 IEEE Region 10 Conference on Computers, Communicationgs,Control and Power Engineering,Beijing,China, 2002:586—589. [9]Park Y A.framework for description sharing and retrieval of se— mantic visual information[D].Tuscon,2002. [10]Ekin A,Tekalp A M.Robust dominant color region detection and color—based applications for sports video[C]//2003 International Conference on Image Processing,Barcelona,Spain,2003:2 1-24. [11]Sigal L-Sclaroff S,Athitsos V.Skin color—based video segmenta— tion under ti-varying illumination[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(7):862—877. [12]Sun S,Haynor D R,Kim Y.Semiautomatic video object segmenta‘ tion using V Snakes[J1_IEEE Transactions on Circuits and Stems ofr Video Technology,2003,l3(1):75-82. [13]Chen H,Qi F,Zhang S.Supervised video object segmentation us— ing a small number of interactions[C]//2003 IEEE International Conference on Acoustics,Speech,and Signal Processing,Hong Kong,China,2003:343—365. [14]Zhou K.Fast tracking of semantic video object based on motion prediction and subregion extraction[C],/IEEE Proceedings of 2002 International Conference on Image Processing,Benalmadena,Mala— ga,Spain,2002:621—624. 『l5]曹建荣,蔡安妮.基于支持向量机的视频关键帧语义提取[J1.北京 邮电大学学报,2006,29(2):123一l26. [16]Asano F,Motomumra Y,Nakamumra S.Fusion of audio and video ifnormation for detecting speech events[C]//Proceedings of the Sixth Intemational Conference of Information Fusion,Cairns,Aus— tralia,2003:386—393. (下转180页) 维普资讯 http://www.cqvip.com 180 2007,43(18) 测试分析: Coraputer Engineering凹 Applications计算机工程与应用 现IJJ.计算机辅助工程,2004,2:l—l0. [2]Selamat A.Web page feature selection and classiifcation using neural networks[J].Information Sciences,2004,l 58:69—88. [3]Perrin P,Petry F E.Extraction and representation of contextual in- formation for knowledge discovery in texts[J].Information Sciences, 2003.15l:125—132. (1)在测试中,不仅将电子邮件分为正常和垃圾邮件两类, 还将其细分为小类。实验结果证明,即使对于小类特征值提取 方法也能达到很好的分类效果。 (2)基于同义概念的特征表示方法在电子邮件分类中,其 F—measure明显要优于其它的特征表示法。 (3)基于同义概念的特征表示方法在电子邮件分类中,其 特征值的数量明显要少于其它的特征表示法。 当然。由于分词的准确性,以及采取的只是用近似计算来 分类,使得其分类的正确率还不是很好。这些方面将在今后的 工作中加以改进。 【4】杨斌,孟志青.一种文本分类数据挖掘技术IJ1.湘潭大学自然科学学 报.200l,23(4):34—37. [5]邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法[J1. 计算机工程与应用,2005.4l(36):164—166. [6]谢宜辰.网络智能文本分类系统的研究与实现[JJ.湘潭大学自然科 学学报.2000,22(1):l2—15. 5 结束语 本文针对电子邮件的特点提H{了一种新的特征值提取方 法,并将之有效地应用到电子邮件的分类当中,实验证明提出 [7]Aseltine J H.Wave:an incremental algorithm for information extraction[CV/Proceedings of the AAAI,1998 Workshop on Machine Learning for Information Extraction,1999. 的特征值提取方法能够提高电子邮件的处理性能。接下来的工 作将在文本分类算法上作进一步的研究工作,并将这种特征值 表示和提取方法应用在其中。(收稿日期:2006年12月) [8]刘为国.Web信息 系统的体系结构叨.湘潭大学自然科学学报,2002,24 (1):24—26. [9]中国社会科学学院语言研究所.词典编辑室现代汉语词典[M].北 京:商务印书馆.2003. 参考文献: [1]朱炜,王晓国,黄韶坤,等.Email挖掘系统的体系模型及其具体实 [10]朱红畅,盂志青.一种基于SOM和层次凝聚的中文文本聚类方法 . 湘潭大学自然科学学报.2005.27(4):36—39. (上接167页) [2]Oliveira S R M,Zai'ane O R.Achieving privacy preservation when [6]Jha S,Kruger L,McDaniel P.Privacy preserving clustering[C]//In lOth European Symposium on Research in Computer Security sharing data for clustering[C]//Proceedings of the International Work— shop on Secure Data Management in a Connected World(SDM’04) (ESORICS’05),Milan.Italy.September 2005:397—417. in Conjunction with VLDB 2004,Toronto,Canada,August 2004. [3]张国荣,印鉴.应用等距变换处理聚类分析中的隐私保护[JJ.计算机 应用研究.2006(7):83—86. [7]Clifton C,Kantarcioglu M,Vmdya J,et a1.Tools for privacy preserv— ing distirbuted data mining[C]//SIGKDD Explorations,2002,4(2): 28—34. [4]Vaidya J,Clifton C.Privacy—preserving k—means clustering over [8]罗永龙,徐致云,黄刘生.安全多方的统计分析问题及其应用[JJ.计 算机工程与应用,2005,41(24):141—143. [9]Du W,Zhan Z.Building decision tree classiifer on private data[C]// Proceedings of the IEEE ICDM Workshop on Privacy,Security and vertically partitioned data[CV/Proc of the 9th ACM SIGKDD Intl Conf on Knowledge Discovery and Data Mining,Washington,DC, USA,August 2003:206-215. [5]Merngu S,Ghosh J.Privacy-preserving distirbuted clustering using Data Mining.Maebashi City.Japan.December 2002:l一8. generative models[Cy,'Pmc of the 3rd IEEE International Conference on Data Mining(ICDM’03),Melbourne,Florida,USA,November 2003: 2l1—21 8. [10]Blake C L,Merz C J.UCI repository of machine learning databas— es[DJ.University of California,Irvine,Dept of Ifornmation and Com— puter Sciences,1998. (上接170页) [17]Miyauchi S.Collaborative multimedia analysis for detecting semanti- 40(6):27—29. [22]章毓晋.基于内容的视觉信息检索[MJ.北京:科学出版社,2003. [23】余卫宇,谢胜利,余英林,等.语义视频检索的现状和研究进Y ̄[JI. 计算机应用研究,2005(5):1-7. [24]蔡骏.基于语义的信息检索中的反馈技术[JJ.南京邮电学院学报, 2003.23(2):78—81. cal events from broadcasted sports video[C]//16th International Con- ference on Pattern Recognition,Quebec,Canada,2002:1009—1012. [18]So Zhong,Li Stan,Zhang Hong-Jiang.Extactrion of feature sub- spaces for content—based retrieval using relevance feedback[C]// ACM Muhimedia.Ottawa,Canada,September 30一October 5,2001. [25]任和.语义视频对象的提取及其在视频检索中的应用【D].上海:复 旦大学.2002. [19]Naphade M R.A statistical modeling approach to content—based video retireval[C]//IEEE Proceedings of 16th Internationgal Con- [26]张毅,赵捧未,刘怀亮,等.基于语义的图像相关反馈技术【J1.情报 杂志,2006,25(10):43—44. ference on Pattern Recognition,Quebec,Canada,2002:953—956. [20]王惠锋,孙正兴,王箭.语义图像检索研究进展[JJ.计算机研究与发 展.2002(5):5l3-523. 【27】庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索【M】.北京:清华 大学出版社.2002. [28]张若英,申铉京.基于内容的视频检索方法的研究[JJ.计算机工程 与应用.2004,40(6):196—199. [2l】余卫宇,余英林.视频语义信息的研究[JJ.计算机工程与应用,2004, 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务