- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
CVPR 2023 Award Candidate | 真实高精三维物体数据集OmniObject3D

布景介绍
面向真实 3D 物体的感知、理解、沉建与天生是推算机视觉领域一向倍受关注的问题,也在近年来获得了飞速的进展。然而,由于社区中持久不足大规模的实采 3D 物体数据库,大部门技术步骤仍依赖于 ShapeNet[1] 等仿真数据集。再者,仿真数据与真实数据之间的表观和散布差距巨大,这大大限度了它们在现实生涯中的利用。
为相识决这一难题,近年来也有一些优良的工作如 CO3D[2] 等从视频/多视角图片中追求突破点,并利用 SfM 的方式沉建 3D 点云,然而这种方式得到的点云往往难以提供齐全、干净、精准的 3D 表表和纹理。因而,社区火急必要一个大规模且高质量的真实世界 3D 物体扫描数据集,这将有助于推动很多3D视觉工作和下游利用。

仿真数据与真实扫描数据的对比:仿真数据的纹理和几何往往比力单一且失真。

多视角图片沉建点云与真实扫描数据的对比。沉建点云往往含有噪声,且无法复原精密的表表与纹理,在没有拍摄到的地位存在大面积浮泛。
数据集特点
OmniObject3D 为每一个物体提供了四种模态信息,蕴含:带纹理的高精模型、点云、多视角渲染图像、实景拍摄的环抱视频。对于每个拍摄的视频,我们均匀抽取了 200 帧,并提供远景掩码和 SfM 沉建的相机位姿和稀少点云。

模态示例

文件层级
数据集的整体类别内物体数量呈长尾散布,与 ImageNet[3]、COCO[4]、LVIS[5] 和 ShapeNet[1] 等热点 2D 及 3D 数据集中的常见类别有高度共享。

每个类别内物体数量散布图
下游利用
OmniObject3D 为学界带来了宽泛的索求空间,在本文中,我们拔取了四个下游工作进行评估与分析。
工作一:
点云分类鲁棒性(Point Cloud Classification Robustness)
物体点云分类是 3D 感知中最根基的工作之一。在本节中,我们展示了 OmniObject3D 若何通过解耦 out-of-distribution styles & out-of-distribution corruptions 来实现更全面的点云分类的鲁棒性分析。

OmniObject3D 提供了一个干净的真实世界物体点云数据集,使得可能针对 OOD styles & OOD corruptions 的鲁棒性进行细粒度分析。
具体来说,1)CAD 模型与真实扫描模型之间的差距引入了 OOD styles;2)常见点云粉碎因子产生了 OOD corruptions。
在之前的钻研工作中,含噪的真实物体数据集如 ScanObjectNN[6] 将两种情况藕合起来,无法实现解耦分析;自动参与粉碎因子的仿真数据集如 ModelNet-C[7] 则仅仅反映了第二种情况。OmniObject3D 则具备将两种情况解耦分析的身分。
我们对十种最常见的点云分类模型进行了测试,并揭示了其与 ModelNet-C 数据集中结论的异同。在应对这两个挑战时,若何实现一个真正鲁棒的点云感知模型仍需越发深度的索求。

点云分类鲁棒性尝试了局
工作二:
新视角合成(Novel View Synthesis)
自 NeRF[8] 提出以来,新视角合成一向是领域内的一个热点方向。
我们在 OmniObject3D 上钻研了两种赛路下的新视角合成步骤:
1)利用密集视角图片输入,对单一场景进行优化训练;
2)挖掘数据集中分歧场景之间的先验,索求类 NeRF 模型的泛化能力。
首先,对于单场景优化的模型,我们观察到基于体素的步骤会越发善于建模高频纹理信息,而基于隐式模型的步骤令相对更能抵抗表表凹陷或弱纹理等容易产生几何歧义的情况。
数据集中物体多变而复杂的状态和表观为这项工作提供了一个全新的评估基准。

多个常见步骤的单场景优化成效示例
相对于拟合的单个场景的模型,跨场景可泛化框架在本数据集上的阐发则更令人等待。网络从好多同类别、甚至跨类此外数据中进建到能够泛化的信息,即可对于一个全新场景的稀少视角输入做出新视角预测。
尝试批注,作为一个几何和纹理信息丰硕的数据集,OmniObject3D 有助于促使模型学到对新物体或甚至新类此外泛化能力。

泛化性模型成效示例
工作三:
表表沉建(Surface Reconstruction)
除了新视角合成表,若是能复原物体的显式表表,将越发有助于下游利用的开发。同时,东升国际官网数据具备精准且齐全的三维表表,可能充分支持表表沉建精度的评测必要。
类似的,我们也为表表沉建工作设置了两条赛路:
1)浓密视角采样下的表表沉建;
2)稀少视角采样下的表表沉建。
浓密视角下表表沉建了局展示了数据集内几何状态的显著多样性。精准的扫描使得我们可能使用 Chamfer Distance 作为沉建精度的怀抱。将类别划分为三个“难度”等级,能够观察到所有步骤在不一致级上的了局存在显著的差距。
与仅蕴含 15 个场景的尺度 DTU[9] 基准相比,东升国际官网数据集在这项工作上提供了更全面的评估了局。



浓密视角表表沉建示例
稀少视图表表沉建是一个更具挑战性的工作,在所有步骤的了局中我们都观察到了显著瑕疵,均未达到可能满足现实利用的水平。
除了专为稀少视角表表沉建设计的步骤表,我们还评估了前面提到的泛化性新视角合成模型的几何复原能力——数据集提供的精准 3D Ground Truth 在评测中再次阐扬了优势,然而他们的阐发同样无法令人中意。
综上所述,这个问题的索求空间依然巨大,而 OmniObject3D 为该领域进一步的钻研提供了扎实的数据基础。

浓密和稀少视角表表沉建成效示例
工作四:
3D 物体天生(3D Object Generation)
除了沉建之表,OmniObject3D 还能够用来训练真实 3D 物体的天生模型。我们选取 GET3D[10] 框架同时天生状态和纹理,并尝试使用单个模型从数据集中同时进建多种类此外天生。

带纹理的3D物体天生
通过在隐空间插值,能够观察到天生模型跨类别变动的个性。我们在文章中还着沉探求了由于训练数据不平衡导致的天生语义散布失衡特点,具体请参考论文。

状态和纹理低维隐码插值了局
将来工作
关于数据集自身,我们会致力于不休扩大和更新数据集以满足更宽泛的钻研需要。除了现有的利用,我们还打算进一步发展其他下游工作,如2D/3D物体检测和6D姿势估计等。除了感知和沉建工作表,在AIGC时期,我们相信OmniObject3D可能在推动真实感3D天生方面阐扬至关沉要的作用。
传送门
Project page
https://omniobject3d.github.io/
Paper
https://arxiv.org/abs/2301.07525
Github
https://github.com/omniobject3d/OmniObject3D/tree/main
Dataset Download
https://opendatalab.com/OpenXD-OmniObject3D-New/download
References:
[1] Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: An information-rich 3d model repository. arXiv.org, 1512.03012, 2015.
[2] Jeremy Reizenstein, Roman Shapovalov, Philipp Henzler, Luca Sbordone, Patrick Labatut, and David Novotny. Common objects in 3d: Large-scale learning and evaluation of real-life 3d category reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10901–10911, 2021.
[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, 2009.
[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll?ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Proceedings of the European Conference on Computer Vision (ECCV), pages 740–755, 2014.
[5] Agrim Gupta, Piotr Dollar, and Ross Girshick. LVIS: A dataset for large vocabulary instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5356–5364, 2019.
[6] Mikaela Angelina Uy, Quang-Hieu Pham, Binh-Son Hua, Thanh Nguyen, and Sai-Kit Yeung. Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 1588–1597, 2019.
[7] Jiawei Ren, Liang Pan, and Ziwei Liu. Benchmarking and analyzing point cloud classification under corruptions. In Proceedings of the International Conference on Machine learning (ICML), 2022.
[8] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In Proceedings of the European Conference on Computer Vision (ECCV), pages 405–421, 2020.
[9] Henrik Aan?s, Rasmus Ramsb?l Jensen, George Vogiatzis, Engin Tola, and Anders Bjorholm Dahl. Large-scale data for multiple-view stereopsis. International Journal of Computer Vision (IJCV), 120(2):153–168, 2016.
[10] Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, and Sanja Fidler. Get3d: A generative model of high quality 3d textured shapes learned from images. In Advances in Neural Information Processing Systems (NIPS), 2022.





返回