申抒含    研究员、博士生导师

中国科学院自动化研究所,模式识别国家重点实验室
中国科学院大学,人工智能学院
中国科学院人工智能创新研究院

地址:北京市海淀区中关村东路95号
Email: shshen@nlpr.ia.ac.cn
电话:010-82544605

English
 

基于图像的大规模场景三维感知

(硕士生、博士生、博士后、实习生招生说明)

我们长期以来专注于三维计算机视觉理论和应用的研究,如下是我们研究内容的简介。这份简介用来帮助想加入我们团队的同学快速了解我们的研究方向,以及未来可能开展的研究内容。

大规模场景三维感知是智能机器人、智慧城市、地理信息、AR/VR等领域的共性需求和必备能力。机器人工作在三维环境中,其对场景的透彻感知包括获取场景精确完整的三维几何模型、模型中几何基元的细粒度语义类别、以及机器人在场景中的实时六自由度空间位姿。其中场景的三维几何模型作为全局地图为机器人移动路径规划、可通达区域计算等提供了基础信息;几何基元的语义类别信息给机器人提供了全局三维识别能力,帮助机器人精确获取场景中有什么物体、在哪里、什么形状等关键信息;实时六自由度空间位姿使机器人获得空间定位和定姿能力,能够实时获取自身在全局地图中的位置和朝向,为后续的交互和操控提供精确位置参考。  

三维感知的方式包括激光雷达、结构光、图像等多种手段,其中基于图像的方式是使用最方便、成本最低的三维感知方式,同时也是最接近人类视觉的感知方式。因此,我们长期以来的研究都专注于基于图像的场景三维感知研究,构建了从二维图像→三维几何模型→三维语义模型→三维矢量模型→实时视觉定位的整体框架,针对三维语义矢量化重建中的各个环节提出了一系列核心算法,构建了具有完全自主知识产权的大规模场景三维语义矢量重建和视觉重定位全流程系统,并在多个领域取得了系统性应用。如下是一个典型的大规模场景三维感知系统所涉及的各个核心研究模块:

大规模场景三维几何重建:从海量二维图像数据获取场景完整精确的三维几何模型(密集三维点云/密集三角网格),是图像三维重建的核心研究内容。与其相关的研究内容包括SfM、SLAM、MVS、Meshing等,同时多源(图像、LiDAR、GNSS、IMU等)融合几何重建也是一个发展趋势。

  


三维场景高精度几何重建(7500幅航拍图像, 20亿点云)
 

大规模场景三维语义重建:三维点云和三维网格模型只包含场景的几何属性,但缺少高层语义类别属性。三维语义重建将网格/点云模型提升至三维语义模型,为每一个三角面片或三维点赋予细粒度语义类别属性。

  


三维场景细粒度语义重建(1650幅地面图像,12个语义类别)
 

大规模场景三维矢量重建:矢量化表达是三维场景最高层级表达方式,其目的是以高度压缩的矢量化几何基元(直线、曲线、平面、曲面、柱面等)表达复杂场景中的基本语义部件。三维矢量化模型是智能机器人、无人驾驶、智慧城市等应用领域所需的最终三维表达方式。

  


三维场景规范化矢量重建(总面积12.2平方公里, 4343座建筑)
 
大规模场景实时视觉定位:除了对三维场景进行精确完整的语义矢量化表达,了解智能体自身在场景中的实时位姿(位置+朝向)也是自主智能系统需要具备的基本感知能力。
 

大规模室内场景单目视觉定位 (大型交通场站,6万平方米)
 

我们的研究属于应用基础研究,着力解决实际应用中存在的核心科学问题。因此,在解决实际问题、搭建应用系统的同时,我们也注重创新性方法和高水平论文的产生,目前我们已在计算机视觉、摄影测量、机器人等领域国际期刊和国际会议,如International Journal of Computer Vision、IEEE Trans. on Image Processing、ISPRS Journal of Photogrammetry and Remote Sensing、CVPR、ECCV、ICRA、IROS等发表论文60余篇。我们所提出的部分图像三维重建算法已集成于著名三维视觉开源系统TheiaSfM、OpenMVG、OpenMVS等 。同时我们的图像三维建模和视觉定位系统曾获2018年中国图象图形学会科学技术二等奖、CVPR2019大时间跨度视觉定位竞赛冠军、CVPR2021三维矢量化BIM建模竞赛冠军等。

我们的研究工作获得了国家自然科学基金重点、国家自然科学基金面上、中科院人才专项、中科院国际合作等多个项目的资助,在三维视觉理论方法方面开展系统性探索;同时我们也得到国内主要AI企业的长期资助,在倾斜摄影城市三维建模、大规模室内场景重建与视觉定位、无人车高精地图构建等方面开展技术落地。如下是我们开展的三个典型应用:

三维数字城市
通过海量航拍图像构建城市场景语义化和矢量化三维模型,为城市管理提供全局基础三维信息
 
 室内外场景三维地图与视觉定位
通过手机视频构建大场景视觉定位地图,为用户提供基于单幅图像的云端实时视觉定位服务
 
 无人车视觉三维高精地图构建
通过纯视觉或视觉/LiDAR融合方案为无人车提供低成本三维几何、语义和矢量化高精地图
 

欢迎对三维重建、视觉定位、三维场景理解、智能机器人三维感知、无人驾驶构图定位等领域感兴趣的同学加入我们,共同开展三维视觉理论和应用方面的研究。我们长期欢迎优秀的学生以各种方式(推免、考研、实习等)加入我们的团队,欢迎随时email联系(请附简历和成绩单)。

我在中科院自动化所和国科大人工智能学院两处招生,国科大人工智能学院由自动化所承办,因此两者除招生名额来源不同外,其他均无区别,都属于自动化所的学生,均在中科院自动化所模式识别国家重点实验室开展科研工作。进入课题组有如下几种方式:
1)具备推免资格的本科生:通过自动化所暑期夏令营进行选拔,录取为直博生/硕士生;
2)应届/往届本科生:通过报考自动化所,并参加全国统考,录取为学术型/专业型硕士生,其中学术硕士具备转博资格;
3)应届/往届硕士生:通过报考自动化所,参加研究所统一考试(未来可能是申请考核制),录取为普博生;
4)在读本科/硕士/博士生:在得到自己导师同意的前提下,作为实习生进入课题组从事研究并完成学位论文;
5)已有博士学位或即将博士毕业:长期招聘三维计算机视觉方向博士后,可随时单独联系。