企业简介

作为中国自动化领域的权威旗舰网络媒体,控制网创立于1999年7月,是中国举行的第十四届IFAC (International Federation of Automatic Control)大会的中国官方组织机构的唯一指定网站。控制网是中国自动化学会专家咨询工作 委员会(ECC)的秘书处常设之地。是北京自控在线文化传播有限公司开设的网站。

  • 公司类型:其他

联系方式
  • 控制网
  • 地址:北京市海淀区上地十街辉煌国际2号楼1504室
  • 邮编:100085
  • 电话:010-57116291 / 59813326
  • 传真:010-59813329
  • 网址:http://www.kongzhi.net
  • Email:mahongliang@kongzhi.net
  • 联系人:市场部
案例详细
标题基于内容的图像检索系统
技术领域运动控制
行业
简介文章介绍了基于内容的图像检索技术及其优势,并举了几个例子。 关键词:基于内容的图像检索;特征提取;相似度计算 Abstract: This paper introduces the Content Based Image Retrieval System and its advantage, and then offers some examples. Key words: Content based image retrieval; Feature extraction; Calculation of the resemble degree
内容

1  引言

    近年来随着Internet和多媒体技术的发展,图像已成为一种重要的信息资源。各种数字图像中包含了大量有用的信息,然而由于它们无序的分布在世界各地,图像中所包含的信息无法被有效的访问和使用。这就要求有一种能够迅速而准确查找和访问用户所需要的图像信息的技术,即图象检索技术。

    20世纪70年代以来,图像检索技术已逐步成为一个非常活跃的领域,其推动力主要来源于数据库系统和计算机视觉这两大研究领域。图像的索引和检索目前有多种方法,总得来看分为两种,一种是传统的基于文本的图像检索方法,另一种是近年来已逐渐成为国内外研究热点的―基于内容的图像检索方法。

   传统的基于文本的图像检索方法利用自然语言的优势,将图像作为数据库中存储的对象,用关键字或自由文本对其进行描述。检索以查询和图像文本描述之间的相似性为基础,采用常规的信息检索技术(IR)。但是这种技术存在以下缺点:一是在基于这种技术的系统中,必须输入文本描述或使用现有的标题,目前的计算机视觉和人工智能技术都无法对图像自动进行文本标注,而必须依赖人工对图像作出标注;二是文本描述可能不完备,或者主观,不同的人对同一幅图像有不同的理解方法,这种主观理解的差异将导致图像检索中的失配,此外,图像中所包含的丰富的视觉特征(颜色、纹理或形状等)往往无法用文本进行客观地描述。

    基于内容的图像检索系统(Content Based Image Retrivel,简称为CBIR)融合了图像理解、模式识别、计算机视觉等技术,将图像的视觉特征作为特征向量进行提取,然后将示例图像的特征向量与系统中存储图片的特征向量进行相似度比较,按相似度大小排列返回给用户。与传统基于文本的图像检索系统相比,CBIR从更深层次对图像媒体进行理解和控制,索引和检索过程可以自动完成而且易于实现,还可以通过可视化界面与用户进行交互,便于方便的构造查询、评估和改进检索结果。实践已证明该方法能够产生相当好的检索性能。

2  系统总体模型

基于内容特征的图像检索系统涉及到图像处理、图象识别、数据库三个领域的技术,主要包括:接口技术,即查询者与系统之间的交互方式,查询者以何种方式提出查询的内容,系统如何解释接受,对系统给出的结果,查询者如何给出正确的反馈,进行再次查询;匹配技术,即图像相似性的度量准则;数据库技术,包括图像存储的技术,图像的高维索引技术。

基于内容的图像检索系统一般由两个系统构成,即数据库生成子系统和数据查询子系统,每个子系统由相应的功能模块组成,其基本结构如图1 所示。


图1  CBIR系统构成

3  系统关键技术

3.1  特征向量的提取以及相似度计算

    基于内容的图像检索系统中最关键的技术是特征向量的提取以及相似度计算,选择提取何种特征作向量和相应的相似度算法对最终检索系统的效率有着极其重要的影响。就目前情况来看,特征向量的提取以及相应的相似度算法主要有以下三种情况。

    (1)  基于颜色特征的检索

    颜色特征是图像检索中所使用的最直观的视觉特征,是彩色图像最显著的特征,它对图像本身的尺寸、方向、视角的依赖性较小,具有较高的稳健性。因此基于颜色的图象检索技术是基于内容的图像检索技术最常用最基本的方法。
Swainhe和Ballard[1]于1991年提出用颜色直方图作为图象索引,颜色直方图在基于内容的图像检索系统中得到广泛关注。其主要思想是:首先计算出用户所给的示例图像的颜色直方图,然后与图像特征矢量数据库中存储的直方图进行相似度计算,最后按相似度的大小排列返回检索结果,相似度最大的为最为匹配的图像。直方图描述了图像颜色(灰度)空间的统计分布和基本色调。具体地说,对于一幅图像I,其颜色(灰度)由L级(C1,C2……Cl)组成,Ci为第i级颜色值。在整幅途中,具有Ci值的像素个数有hi个,则一组像素的统计值h1,h2,……hl就称为该图像的颜色直方图,用H(h1,h2,……hl)表示。关于直方图的距离量度有绝对值距离(L1度量法)、二次距离度量法、欧几里德距离等方法。其中绝对值距离绝对值距离(L1度量法)形式如下:

   

    其中,H为示例图像的颜色直方图,I为索引库中的图像颜色直方图,分别为示例图像和库中图像第i种颜色像素的频数。

    颜色直方图虽然能较好的反映出图像中各种颜色的频率分布情况,但忽略了颜色的空间分布信息,使得不同的图像可能具有相同的颜色特征。Pass等人提出图像的颜色聚合矢量CCV(Color Coherence Vector) [2] 来作为图像索引,是图像直方图的一种演变。其核心思想是将图像中在感知上相似颜色的像素所占据的连续区域的面积大于系统所给定的阀值时,该区域中的像素为聚合像素,否则为不聚合像素,这样统计图像所包含的每种颜色的聚合像素和不聚合像素的比率称为该图像的颜色聚合矢量。将颜色聚合矢量作为特征向量提取的检索方法比直方图的检索精度要高。 为了能够在大规模图像数据集中进行快速地搜索,Smith和Chang等人提出了颜色集的概念。

    研究者对颜色作为特征向量的索引方法已经有了很多的研究,目前存在的主要问题是颜色空间的选择不统一。有人使用RGB颜色空间,因为它记录了图像本质的颜色特性。但更多的人选择了HSV、MUSHELL颜色模型,它们与人的视觉特性比较接近,这样就给对各种检索方法进行评价带来一定困难。颜色特征仅仅是基于内容检索技术中的一个种方法,在实际应用中可与其它检索方法结合,可取得更佳效果。

    (2)  基于纹理特征的检索

    纹理特征是一个重要的图像特征,它是物体表面具有的内在特征,包含了关于表面结构安排及周围环境的关系,被定义为“一种反映一个区域中像素灰度级的空间分布的属性”。

    目前基于纹理的算法主要分两类:一种是结构分析法,即从图像结构组成上探索纹理的规律或者直接去探求纹理构成的结构规律;一种是统计分析法,即从图像有关属性的统计分析出发的。前者将图像中非常具有结构规律的特征加以分析,后者对图像中的色彩强度的空间分布信息进行统计。现在比较常用的是后者。Haralick等人从数学角度研究了图像纹理中灰度级的空间依赖关系,根据图像中像素之间的方位和距离关系构造了一个共生矩阵(comatrix)[3],然后从中提取有意义的统计特征作为纹理特征的表达,使用的特征主要有能量、熵、相关性和惯量,该方法的最大缺点是这些统计特征没有和人在视觉对纹理特征鉴别之间建立对应关系。

    Tamura等人在对计算机视觉进行研究的基础上,进行了大规模的心理测试,使纹理描述尽可能地接近人的感知,由此提出了到目前为止最好的纹理规范,这六个纹理特征分别为:粗糙性(coarseness)、对比度(contrast)、方向性(directionality)、线条相似性(linelikeness)、规则性(regularity)和光滑性(roughness)。其中前三个特征对于图像检索尤为重要,大多数基于纹理的图像检索系统都只使用前3个特征来描述纹理特征。例如在QBIC系统中,纹理由粗糙性、对比度和方向性来描述。

    近年来随着小波(wavelet)变换在图像分析中的广泛应用,许多研究者开始将小波变换运用于纹理特征表示中,采用小波变换后的系数作为图像的索引。如Smith和Chang从小波子波段中提取统计特征作为图像的纹理表示[4],取得了较好的效果。Chang和Kuo 则采用树结构小波变换来进一步提高图像分类能力的准确度[5]。Ma和Manjunath评价了各种小波变换形式后,发自案给予Gabor小波变换的检索效果最佳。  

    (3)  基于形状特征的检索

    形状特征是图像中重要的中层特征,与颜色或纹理等特征不同的是,表达形状特征是基于对图像的分割。当前技术无法对图像做到准确而稳健的自动分割,因此基于形状的检索使用某些可能是半自动化的方法把图像分割成单个的对象。在对图像进行分割后,其关键问题就在于如何对形状进行表示和如何进行形状之间的相似性度量。形状特征表示的一个重要准则是要求对位移、旋转、缩放的不变性,通常形状特征表示可以分为全局特征和局部特征。全局特征包括图中整个物体的圆度、环状度、中心矩、离心率以及矩不变量等。局部特征包括形状的外边界,比较成功的表达式傅立叶描述符,用经傅立叶变换后的边界作为形状特征,这样用较少的参数就包括比较复杂的边界。

    形状特征也称为轮廓特征,指图像中子图像的边缘特征。采用形状特征进行检索时,用户可以粗略的勾画出一个形状或是轮廓,从图像库中检索出形状相似的图像。基于形状检索的难点在于寻找能够检索与大小、方向及扭曲伸缩无关的方法。为此,可同时采用三个特征作为形状特征,即长/短轴比、2周长/面积比、最近与最远点的连线间的夹角。这三个特征对形状的大小变化与旋转都不变,其中长短轴分别定义为形状质心到形状边缘最远点或最近点的连线。

    实际上常用的办法是采用全局特征和局部热争相结合来进行形状的相似检索。如Eakins等人提出了一组重画规则并对形状轮廓等用线段和圆弧进行简化表达[6],然后定义形状的邻接族和形族两种分族函数对形状进行分类。邻接族主要采用了形状的全局特征,如其边界信息等,而形状族主要采用的形状的局部特征。在形状进行匹配的时候,除了每个族中形状差异外,还比较每个族中质心和周长的差异,以及整个形状的位置特征矢量的差异,查询判断距离是这些差异的加权和。

3.2  系统评价方法

    基于内容的图像查询系统涉及到很多不同的检索算法,需要对各种算法的检索结果进行优劣比较。从现在的研究情况来看,对检索效果的评价更多的放在对检索结果的正确与否,主要使用的是查准率(precision)和查全率(recall)这两项。

    查准率是指在查询过程中,用户所查到的相关图像数目与数据库中的所有图像数目的比率,查全率是指在查询过程中,用户所查到的相关图像数目与数据库中相关的图像数目之间的比率。查准率和查全率越高,则说明该查询系统的性能越优。

4  典型的基于内容的图像检索系统介绍

    基于内容的图像检索技术自20世纪90年代提出至今,国内外已研制出了不少成功的系统原型,均大致包括以下功能:图象分类浏览功能、按示例图检索功能、按手绘草图检索功能、用户反馈等。下面介绍一个典型基于内容的图像检索系统。

    (1)  QBIC系统

    QBIC(Query By Image Content)系统[7]是由IBM公司的开发的第一个商业化的基于内容的图像检索系统。QBIC系统(如图2所示)分为两个子系统:数据库生成(Data population)子系统和数据库查询(Database query)子系统。数据库生成子系统的主要功能是对图像的特征向量进行提取,包括图像的颜色、纹理、形状等特征。数据库查询子系统的主要功能是完成基于内容的图像检索技术,负责对用户查询输入的图像进行同样的特征提取并把特征信息输入匹配引擎,检索出具有相似性特征的图像,这部分提供了完整的用户界面,可以选择各种特征(颜色、纹理、轮廓、对象运动方式、视场运动方式等)进行检索。由查询接口、结果浏览器、检索引擎三个模块组成。


图2  QBIC系统模型

   QBIC系统支持基于示例图像的查询方式和手绘草图的图像索引方法。在此系统中,颜色特征的表达采用了平均色和色彩直方图,纹理特征的表达采用了纹理的粗糙度、对比度和方向性3者的综合,形状特征的表达采用了形状的面积、圆形率、离心率、主轴方向以及一组变换无关矩等描述方式。草图特征以其边界信息为基础。在图像相似性计算过程中考虑了颜色二值数之间的感知相似性。

    QBIC的基于图像内容的检索技术已制成独立的产品,如IBM数字图书馆、超媒体管理器、DB2数据库的图像扩展等工具软件。

    (2)  PhotoBook系统

    PhotoBook是一套浏览、检索图像的交互式工具,由MIT媒体实验室开发。它包含三个子系统,分别提取形状、纹理和人脸特征,用户可以分别做基于上述特征中的任何一种检索。在PhotoBook最新版本FourEyes中,Picard等提出将人也包括在图像的标注和检索过程中。

    (3)  Image Rover系统

    Image Rover系统是基于万维网的图像导航系统,用户使用点击小图标的方法查询到自己所需要的图文信息。Image Rover系统成功的运用了基于内容的查询技术,特点是通过HTML文件将可视化信息和文本信息统一起来。它由文件采集子系统和图像检索系统两部分组成。它使用的视觉特征有颜色、边界定向、纹理和形状。它和其他系统的主要区别在于使用了相关反馈。相关反馈可使用户通过相关项目的说明迭带地提炼出一个查询,以取得更好的搜索性能。

    (4)  WebSEEK系统

    WebSEEK是哥伦比亚大学开发的基于内容的视觉查询原型系统,是基于WWW方式的文本/图像搜索引擎。在WebSEEK中,使用两种独立的自动化过程对图像进行分析。第一个过程抽取和索引颜色直方图和纹理等视觉特征。第二个过程分析相关的文本并把图像分类成定制图像类别中的主题类。目前已分类的图像有66万多幅,形成了一个极富创新性的图像目录。    

    WebSEEK的一个主要特征是综合了视觉特征和文本,该方法的可行性通过一个大的基于万维网的实验台来演示。所用到的视觉特征有颜色集、纹理特征的小波变换。为加快检索过程,还开发出了基于二叉树的索引算法。该系统的一个主要特征是用到了图区域的空间关系查询和直接从压缩数据中提取视觉特征。

    (5)  MARS

    MARS(Multimedia Analysis and Retrieval System)系统[8]是美国UIUC(University of Illinois at Urabana Champaign)大学所开发的,运用计算机视觉、数据库管理系统和信息检索等领域的知识。MARS系统与其它系统的区别在于它的重点不是在于寻找单个的最佳特征表示,而在于如何将不同的视觉特征组织成有意义的检索体系,以动态地适应不同的用户及应用场合。MARS系统是正式提出相关反馈的系统,它将相关反馈技术集成到检索的不同层次过程中。

    (6)  Virage系统

    Virage[9]是一个商业公司开发的视频系统原型,成功地应用在多个美国机构的视频数据库中。其数据库包括索引数据库和视频数据库,数据把编辑管理部分和客户访问部分分离。其特色在于一个强大编辑器,计算机首先对视频进行预处理,通过语音识别和文字识别获取图像中的文本信息,进行镜头切割,使得编辑人员可以很方便地修改和添加注释,从而获得较为全面的描述信息。

5  结语

    基于内容的图像检索技术是一种综合的集成技术,其中一些关键技术涉及到特征提取、图像分割、相似度计算等。目前国际上在基于内容的图像检索领域的诸多研究已经取得了很大进展,但仍存在很多不完善的地方,仍需进一步深入研究。

    (1)  综合多特征的检索:图像具有不同的特征表示方法,不同的特征提取对应着不同的相似性算法。采用多种特征相结合的方法来提高系统效率,是需要解决的问题。例如在颜色、纹理、形状等几种查询特征中,选择两种或者两种以上进行综合查询。在进行综合查询时,如何设置各个特征向量的权重是关键问题。在不同的应用系统中,权重应据实际需要而定。

    (2)  与数据库技术的融合:基于内容的图像数据库把图像处理、图像识别、数据库三个领域的技术成果结合起来,是一个有前途的发展方向。当上千万的图像数据集出现时,数据库将成为图像检索系统的一个重要部分,而且这对图像特征的表达能力、计算速度以及层次可达性都将产生重大影响。

    (3)  基于内容的编码:现在使用的媒体,其格式和编码没有考虑到内容,只是针对颜色、像素来编码,因此从这些数据中抽取内容非常困难。如果在对媒体数据编码时就考虑到媒体的内容,即媒体包含其表示内容的信息,这样对这些数据的内容进行检索就会更有效和准确。目前在这方面的工作已经取得很大进展,例如即将成为国际标准的基于内容的编码标准MPEG-4 和多媒体数据内容表示国际标准MPEG-7。

参考文献:
[1]  Swain M J, Ballard B H, Color indexing[J].International Journal of Computer Vision.1997, 7(1):11-32.
[2]  唐立军, 段立娟, 高文. 基于内容的图像检索系统[J]. 计算机应用, 2000, 10(7): 41-45 [3]. 李向阳, 鲁东明, 潘云鹤. 基于内容的图像检索技术与系统[J]. 计算机研究与发展, 2001, 38(3): 344-354.
[4]  Smith J R, Chang S F, Transform feature for texture class: fication and discrimination in large image database.In:Proc of IEEE Int