机器视觉课题组

模式识别国家重点实验室

中国科学院自动化研究所

视觉计算理论(Computational Theory of Vision)

(作者:胡占义,中国科学院自动化研究所模式识别国家重点实验室 )

视觉计算理论一般是指马尔(D. Marr )在其《Vision》[1] 一书中提出的视觉计算理论和方法。马尔计算视觉理论的提出,标志着计算机视觉成为了一门独立的学科。

马尔计算视觉理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了一套完整的计算理论和方法。所以,马尔视觉计算理论在一些文献中也被称为三维重建理论。

马尔认为,从二维图像复原物体的三维结构,涉及三个不同的层次。首先是计算理论层次,也就是说,需要使用何种类型的约束来完成这一过程。马尔认为合理的约束是场景固有的性质在成像过程中对图像形成的约束。其次是表达和算法层次,也就是说如何来具体计算。最后是实现层次。马尔对表达和算法层次进行了详细讨论。他认为从二维图像恢复三维物体,经历了三个主要步骤,即图像初始略图(sketch)物体2.5维描述—>物体3维描述。其中,初始略图是指高斯拉普拉斯滤波图像中的过零点(zero-crossing)、短线段、端点等基元特征。物体2.5维描述是指在观测者坐标系下对物体形状的一些粗略描述,如物体的法向量等。物体3维描述是指在物体自身坐标系下对物体的描述,如球体以球心为坐标原点的表述。

马尔视觉计算理论是上世纪八十年代初提出的,尔后三十多年的研究中,人们发现马尔理论的基本假设:“人类视觉的主要功能是复原三维场景的可见几何表面”基本上是不正确的,“物体识别中的三维表达的假设”也基本与人类物体识别的神经生理机理不相符。尽管如此,马尔计算视觉理论在计算机视觉领域的影响是深远的,他所提出的层次化三维重建框架,至今是计算机视觉中的主流方法。尽管文献中很多人对马尔理论提出了质疑、批评和改进,但就目前的研究状况看,还没有任何一种理论可以取代马尔理论,或与其相提并论。

参考文献
[1]: David Marr, Vision: A computational Investigation into the human representation and processing of visual information, W. H. Freeman and Company, 1982.