机器人视觉中的物体表达问题—

机器人视觉中的物体表达问题（Object Representation for Robot Vision）

（作者：胡占义，中国科学院自动化研究所模式识别国家重点实验室）

1: 物体表达的必要性和重要性

机器人能像人一样识别物体，是机器人视觉（robot vision）专家的梦想和追求。要想识别物体，不论是人还是机器人，仅仅看到是不够的，还需要知道物体的表达方式。表达是一个与认知科学密切联系的词汇，英文是representation, 通俗地讲，物体表达问题就是指物体在大脑（对人类）或计算机内（对机器人）是如何对物体进行表示的问题。

物体表达是物体识别的主要步骤。对机器人而言，不同的表达（主要指不同的数学模型），直接决定着对物体识别的能力和可靠性。这主要是因为一个物体从不同的方向看，对应的图像是不同的，有时甚至差别很大。人们希望物体表达方式尽量与观察物体的视角无关。这也是为什么要研究有效表达的原因。目前机器人很难处理同一物体在不同视角下的物体识别问题。然而，我们人类在识别物体时似乎对这种视角变化很不敏感。所以，研究人类视觉表达方式，是解决机器人视觉中物体表达的有效途径，至少具有重要的参考作用。

2:：两种主要的物体表达方式

尽管文献中对物体有大量不同的数学描述方式，如显著特征描述，不变量描述，弹性模型等等，但这些模型可以说仅仅是针对某些特定物体在特定环境下的一些表达形式，还上升不到通用的物体表达方式的层次。就目前的文献看，物体表达方式主要由两种模型。一种称为三维形状模型（3D model），一种称为二维图像模型（view-based model）.

马尔的三维模型

三维形状模型是上世纪80年代由麻省理工学院已故教授马尔（David Marr ）提出的。基本思想是：物体在大脑中的表达是物体的三维几何形状。因为物体的三维几何形状与视角无关，所以人类对物体的表达是与视角无关的表达。马尔三维物体表达模型的提出，宣告了计算机视觉这门学科的诞生。马尔的物体表达方式，主要在他1982年出版的《vision》一书中进行了详细介绍【1】，至今仍具有重要的影响。马尔的三维模型，文献中也称之为三维重建理论（3D reconstruction）. 马尔理论认为，人们首先从看到的二维图像中提取一些诸如点、线、区域等简单基元，然后通过双目立体视觉，运动视觉等视觉模块将这些简单基元的深度进行复原，最后对物体的整体几何形状给出一个简单表达。马尔的这种三维表达方式，在实践中遇到了很大的困难，并导致一些计算机视觉研究人员的批评和争论【2】。马尔三维表达最主要的困难是计算机很难可靠地从二维图像来复原物体在成像过程中所丢失的三维深度信息。后来，人们又提出分层重建等理论，来克服深度恢复过程的不鲁棒性问题【3,4】

二维图像模型

心理学实验发现，尽管人们识别物体时，从侧面图像识别与从正面图像识别所需的时间差别不大（人们自身很难觉察到），但还是有差别的。这就从某种程度上说明，人类对物体的表达“不纯粹”是三维表达。如果是三维表达的话，从正面图像与侧面图像识别物体时所需的时间应该完全一样。近年来，人们又提出了基于图像的表达方式【5,6,7】。这种表达方式认为，人类对物体的表达，不是物体的三维几何形状，而是该物体在不同视点下的一组图像。在这种模型下，物体的识别过程，就成为输入图像与大脑中对该物体存储的一组图像的匹配过程。这种模型数学上的依据是所谓的子空间方法（subspace method）.也就是说，同一个物体，虽然从理论上来说可以投影成无数不同的图像，但在允许一定小误差的情况下，任何一幅图像都可以通过数量有限的一组基图像的线性组合得到，所以大脑仅仅存储这组基图像就可以了。基于图像的模型，还很不成熟。一个明显的问题是，大脑皮层负责物体识别的区域，有大量仅仅对深度信息敏感的神经元，这些深度信息如果不对物体识别起作用，在人类长期进化的过程中，这些细胞应该早已退化不再起作用。

3：展望

物体表达问题，是一个复杂的问题。不论是三维模型，还是二维模型，也许人们都在“瞎子摸象”。文献【8】猜测物体的表达模型可能是二维和三维的混合模型。也就是说，人类在识别物体时，先利用二维图像识别。当二维图像仍不足以区分物体时，此时需要加入三维信息进行区分。总之，物体表达是一个重要的问题，但也是至今仍没有很好解决的一个复杂问题，随着脑成像手段的不断进步，在不远的将来，人们可望对这个问题有更加深入的认识。

4：参考文献
【1】David Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company， 1982.
【2】Michael J. Tarr and Michael J. Black, A computational and Evolutionary Perspective on the Role of Representation in Vision, CVGIP:Image Understanding, Vol.60, No.1, pp.65-73, 1994
【3】Olivier D. Faugeras, Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press, 1993;
【4】Richard Hartely and Andrew Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000.
【5】Maximilian Riesenhuber and Tomoso Poggio, Models of Object Recognition, Nature Neuroscience supplement, Vol.3, Nov., pp.1199-1204, 2000
【6】Michael Tarr, Pepper Williams, William G. Hayward, and Isabel Gauthier, Three-dimensional Object recognition is viewpoint dependent, Nature Neuroscience, Vol.1, No.4, pp.275-277, August, 1998.
【7】Tomoso Poggio and Emillo Bizzi, Generalization in vision and motor control, Nature 431(14):768-774, 2004
【8】Guy A. Orban, Peter Jansen, and Rufin Vogels, Extracting 3D structure from disparity, Trends in Neuroscience, Vol.29, No.8, pp466-473, 2006