机器视觉课题组

模式识别国家重点实验室

中国科学院自动化研究所

计算机视觉简介

(作者:胡占义,中国科学院自动化研究所模式识别国家重点实验室)

在介绍计算机视觉之前,首先需要回答的一个问题是什么是计算机视觉。正像很多学科一样,很多人在从事这方面的研究,但又很少有人能给出一个严格的定义。人工智能是这样,虚拟现实是这样,计算视觉也是不例外。

最直观地讲,所谓计算机视觉就是用计算机来模拟人的视觉系统,实现人的视觉功能。马上随之而来的另一个问题是:人类视觉的主要功能是什么?或者更一般地讲,人类视觉系统主要是干什么的?我们人人有两只眼,眼的用处是看东西。我们无时不刻在用眼看东西,但我们主要在看什么?看的目的是什么?或者说为什么要看?似乎这些问题简单得很少有人去思考,但事实上又很少有人能说清楚。

人与其它动物一样,视觉、听觉、触觉等感官功能的产生,首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论,人的视觉不管有多少用处,但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来,你会赶快回避;看到前面有激流,你不会冒然趟过去。“适应外界环境和控制自身的运动”还是比较抽象的概念。事实上,为了适应外界环境和控制自身的运动,我们的视觉系统需要:能识别物体(可想而知,一个人连亲戚、同事、朋友都不认识,会怎样生活),能判断物体的运动以及确定物体的形状和方位(否则,无法抓取物体)。所以,物体识别、物体定位、物体三维形状恢复和运动分析,就构成了计算机视觉的主要研究内容。

物体识别包含两种主要形式,一种叫做类型识别。如“椅子”可以有多种多样的形状,座椅,背椅,靠椅,但人们可以很容易地把他们归到“椅子”类。这种识别用的是物体的通用属性。另一种识别是同类物体的鉴别。如从人脸中识别出某个人,此时用的是类内的特定信息。物体识别要求既要能抽象出物体的共同属性,又要能分辨出相似物体间的细微区别,所以物体识别问题是一个非常困难的问题。

要对物体进行识别,我们的大脑应该对这个物体有某种表达(或记忆)。表达问题(representation)是计算机视觉的一个核心问题。在计算机视觉界,目前有两种主要表达理论。一种是马尔(Marr)于上世纪八十年代初提出的三维表达理论(也成为三维重建理论: 3D reconstruction paradigm)。一种是本世纪初人们提出的基于图像的表达理论(view-based representation)。三维表达的基本思想是:物体在大脑中表达的是物体的三维几何形状。因为物体的三维几何形状与视角无关,所以三维表达是与视角无关的表达。Marr 的三维物体表达模型的提出,宣告了计算机视觉这门学科的诞生。Marr 的物体表达方式,主要在他1982年出版的一书中进行了详细介绍【1】,至今仍具有重要的影响。但近年来人们发现,Marr 的这种三维表达方式也有很多不足,与很多生理和心理实验不符,所以人们又提出了基于图像的表达方式.基于图像的表达比较系统性的论述是Poggio 等人与2004年在Nature上的文章【2】。近几年,特别是神经科学的进展,人们发现基于图像的表达方式也有很多不足,所以人们猜测物体的表达模型可能是二维和三维的混合模型【3】。总之,物体表达是一个重要的问题,但也是至今仍没有很好解决的一个问题。

粗略地讲,计算机视觉经历了以下4个主要发展历程:

1:马尔视觉计算理论.1982年马尔视觉计算理论的提出【1】,标志着计算机视觉成为了一门独立的学科。马尔视觉计算理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了从图像初始略图(sketch)物体2.5维描述—>物体3维描述一套完整的计算理论和方法。

2:主动视觉,目的视觉。针对马尔理论在具体应用中遇到的困难,以 Aloimonos【4】,Bajcsy等为代表的学者在上世纪八十年代末、九十年代初提出了“目的视觉”、“主动视觉”、“定性视觉”等理论。这些理论的共同特点是认为马尔理论自下到上的三维重建过程,由于缺乏目的性、缺乏高层知识反馈,从而导致三维重建框架不可行,重建算法不鲁棒。他们强调视觉算法高层知识反馈的必要性和重要性,以及视觉主体与环境交互的重要性。这些理论尽管从原理上来说更加符合人类视觉过程,但由于“利用什么样的高层知识”,“如何利用高层知识”,“视觉主体如何与环境进行有效交互”等这些核心问题目前人们还知之甚少,在近期内估计还很难建立有效的计算模型,所以这些理论自从1994 年众多知名学者在CVGIP:Image Understanding上组织关于主动视觉的大辩论后,这些理论至今仍没有显著性进展。

3:分层重建理论 (Stratified Reconstruction). 以Faugeras 和Hartley 【5】 等提出的分层重建理论是上世纪90年代计算机视觉领域最活跃的研究内容。分层重建的基本思想是指从图像到三维欧几里得空间的重建过程中,先从图像空间得到射影空间下的重建(11个未知数),然后将射影空间下重建的结果提升到仿射空间(3个未知数),最后将仿射空间下重建的结果提升到欧几里得空间(5个未知数)。这种分层重建方法由于每一步重建过程中涉及到的未知变量少,几何意义明确,所以算法的鲁棒性得到了有效提高。例如Google和Microsoft公司开发的基于地面图像的3D地图系统Google Earth和Bing Map,Nokia公司开发的基于航空图像的3D城市C3 Ovi Map,NASA开发的开源系统World Wind等等,其中的核心技术之一就是基于分层重建的从运动恢复结构的技术(SFM)。

4:基于学习的视觉。物体识别是计算机视觉的重要研究内容。随着基于图像的物体表达的提出【2】和机器学习的进展【6】,基于学习的视觉是近年来计算机视觉的研究热点。所谓基于学习的视觉,就是指利用机器学习的手段来对图像物体进行识别的方法,包括对物体个体的识别(object identification)和对物体类别的分类(object categorization)。

另外,视觉伺服、大场景三维重建、海量图像标注、特定领域视频分析、视觉监控都是近年来计算机视觉领域非常活跃的研究方向。

计算机视觉有三大主要国际会议,包括两年一次的国际计算机视觉会议(ICCV)和欧洲计算机视觉会议(ECCV)以及一年一次的计算机视觉和模式识别会议(CVPR)。计算机视觉最著名的奖是每次ICCV会议上授予的马尔奖(Marr Prize)。最主要的刊物有:IEEE T-PAMI ( IEEE Transactions on Pattern Analysis and Machine Intelligence) 和IJCV(International Journal of Computer Vision)

参考文献
【1】D. Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company, 1982.
【2】T. Poggio and E. Bizzi, Generalization in vision and motor control, Nature 431(14):768-774, 2004
【3】G. A. Orban, P. Jansen, and R. Vogels, Extracting 3D structure from disparity, Trends in Neuroscience, Vol.29, No.8, pp466-473, 2006
【4】Y. Aloimonos, Active Vision Revisited, in Y. Aloimonos (Ed.), Active Perception, Lawrence Erlbaum Associates, 1993.
【5】R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000.
【6】J.B. Tenenbaum, C. Kemp, T. L. Griffiths, and N. D. Goodman, How to grow a mind: Statistics, structure, and abstraction, Science Vol.331, pp.1279-1285,2011.