申抒含

博士,副研究员,硕士生导师
 
机器视觉课题组
模式识别国家重点实验室
中国科学院自动化研究所
 
地址:北京市海淀区中关村东路95号
Email: shshen@nlpr.ia.ac.cn
电话:010-82544605

English

招生说明
 

基于图像的大规模场景三维感知

(研究生招生说明)

我们长期以来专注于三维计算机视觉理论和应用的研究,如下是我们研究内容的简介。这份简介用来帮助想加入我们团队的同学快速了解我们的研究方向,以及未来你可能开展的研究内容。

三维环境感知是智能机器人(服务机器人、无人车、无人机)必备的能力,同时也是VR、AR、数字城市等领域必备的基础数据。三维感知的方式包括激光、结构光、雷达、图像等多种手段,其中基于图像的方式是使用最方便、成本最低的三维感知方式,同时也是最接近人类的感知方式。因此,我们长期以来的研究都专注于基于图像的场景三维建模,一方面关注大数据的处理能力,如城市级场景的三维建模;另一方面关注高精度的计算能力,如毫米级精度的三维建模。

如下的几个例子是我们目前的部分研究成果:


 

 
 
 

 

高空无人机图像城市三维建模

通过3700幅高空无人机图像重建大规模城市三维模型

低空无人机建筑群三维建模

通过3000幅低空无人机图像重建中国古代建筑群三维模型

街景车图像城市三维重建

通过20000幅街景车图像重建城市三维模型

高精度塑像三维重建

通过200幅高分辨率单反相机图像重建毫米级精度模型

       
我们的研究属于应用基础研究,着力解决实际应用中存在的核心科学问题。智能机器人、无人车、数字城市、文化遗产数字化、VR、AR等各个应用领域都需要高精度高鲁棒性的图像三维重建核心算法。因此,在解决实际问题、搭建应用系统的同时,我们也注重创新性方法和高水平论文的产生,如下是我们在三维计算机视觉领域发表的部分期刊论文:
  1. Miao Yu, Shuhan Shen, Zhanyi Hu. Dynamic Graph Cuts in Parallel, IEEE Transactions on Image Processing, 26(8): 3775-3788, 2017.
  2. Hainan Cui, Shuhan Shen, Zhanyi Hu. Tracks Selection for Robust, Efficient and Scalable Large-Scale Structure from Motion. Pattern Recognition, 2017.
  3. Xiang Gao, Lihua Hu, Hainan Cui, Shuhan Shen, Zhanyi Hu. Accurate and Efficient Ground-to-Aerial Model Alignment. Pattern Recognition, 2017.
  4. Miao Yu, Shuhan Shen, Zhanyi Hu. Dynamic Parallel and Distributed Graph Cuts. IEEE Transactions on Image Processing, 25(12): 5511-5525, 2016.
  5. Hainan Cui, Shuhan Shen, Wei Gao, Zhanyi Hu. Efficient Large-Scale Structure from Motion by Fusing Auxiliary Imaging Information. IEEE Transactions on Image Processing, 22(11): 3561-3573, 2015.
  6. Shuhan Shen, Zhanyi Hu. How to Select Good Neighboring Images in Depth-Map Merging Based 3D Modeling. IEEE Transactions on Image Processing, 23(1): 308-318, 2014.
  7. Shuhan Shen. Accurate Multiple View 3D Reconstruction Using Patch Based Stereo for Large-Scale Scenes. IEEE Transactions on Image Processing, 22(5): 1901-1914, 2013.
  8. Chenhao Wang, Shuhan Shen, Yuncai Liu. A Fast Approach to Deformable Surface 3D Tracking, Pattern Recognition, 44(12): 2915-2925, 2011.
  9. Shuhan Shen, Wenhuan Shi, Yuncai Liu. Monocular 3D Tracking of Inextensible Deformable Surfaces under L2-Norm. IEEE Transactions on Image Processing, 19(2): 512-521, 2010.
  10. Shuhan Shen, Wenjuan Ma, Wenhuan Shi, Yuncai Liu. Convex Optimization for Non-Rigid Stereo Reconstruction. IEEE Transactions on Image Processing, 19(3): 782-794, 2010.
  11. Shuhan Shen, Yuncai Liu, Wu-Sheng Lu. Monocular 3D Tracking of Deformable Surfaces Using Sequential Second Order Cone Programming. Pattern Recognition, 43(1): 244-254, 2010.
  
我们目前的研究内容包括如下几部分:
  • 大规模场景相机标定:根据海量图像数据计算相机内参数(焦距、主点、畸变)和外参数(位姿、姿态)是大场景三维建模的关键步骤,直接关系到场景模型的完整性和精度。
  • 天地图像融合:航拍图像着眼场景全局、地面图像着眼建筑物细节,将两者相结合并纳入统一的重建框架,是获取高精度大场景三维模型的核心。
  • 稠密点云快速计算:稳定快速的获取大场景可见表面的稠密空间点云是三维重建的技术难点,它依赖于相机标定结果,又直接关系到模型质量,是三维建模系统的核心步骤。
  • 三维点云分类:将稠密点云中具有不同属性(建筑、道路、植被、车辆等)的目标准确分类有助于去除稠密点云计算中的误差和错误,同时能够直接赋予点云语义标签,是三维环境感知和理解的关键。
  • 高精度点云模型化:由稠密点云到三维模型是三维重建系统的可视性输出,生成的模型和纹理质量一方面需要符合各种应用领域的行业规范(如地图、城建、规划、军事、文保等),另一方面需要满足不同应用场合的精度要求(如VR、动画、作战指挥、无人车等)。
  • 场景三维语义建模:结合深度学习在场景表达和理解领域的快速发展,将图像语义信息纳入传统重建框架,有助于提升重建的精度、完整性和鲁棒性,是三维计算机视觉未来的发展方向。

 
大场景三维建模系统框架