点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者丨zmYD@知乎
来源丨https://zhuanlan.zhihu.com/p/157489233
Motivation:PointNet不能捕捉局部结构信息,因此限制了其在细粒度任务和复杂场景的泛化能力。
作者提出了一个层级的网络来学习上下文尺度逐渐增大的局部特征。其次,点云中的点分布式不均匀的。为此,作者提出了一个新颖的点集学习层来自适应的学习多尺度特征。
PointNet++的想法很简单,首先使用距离度量将点云分成若个个有重叠的子区域。使用网络在这些子区域上提取特征。然后像CNN一样,将这些小的子区域重组,组成多个更大的子区域(这也就相当于感受野增大)来提取更高级的信息。直至重组到整个点集被包含,提取整个点集信息。
需要解决的两个关键问题:
1. 如何将点集划分成多个子区域;
作者选用farthest point sampling(FPS)算法在整个点集中选点(其实就是为了保证你所选中的点,几乎覆盖了整个点集。例如,一条狗,随机选取的时候可能选中的点只包含了头部和身子,完全忽略了腿和尾巴)。点选完后,使用邻域球(neighborhood ball)来得到一个子区域(可以理解成,一张大的图片被分成了一个个的patch)。最后使用pointNet对这些“patch"抽取特征。
2. 如何通过特征提取器提取特征。
作者选用PointNet作者特征提取器。
作者还利用了多尺度邻域信息来达到增强模型鲁棒性和捕捉细节信息的能力。
该网络是由具有层级结构的大量set abstraction levels组成。set abstraction levels是由三个层组成,分别为:Sampling layer, Grouping layer and PointNet layer.
Sampling layer:
使用FPS来选择每一个区域的中心点。
Grouping layer:
得到一个区域的中心点后,可以使用ball query或者knn方法得到一系列属于该区域的点集(做图像出身的可以理解成一个个patch)。作者在文中说到,ball query所得到的点集确保了一个固定的区域尺度,即使在不同的空间中,模型提取的局部区域特征更加泛化。(大白话就是:ball query可以确保你得到的点在一个半径固定的圆中。knn虽然也是选出K个点,但是这K个点的不一定在一个半径固定的圆中)。
在CNN中我们通常使用3*3卷积对9个点来提取特征或者5*5卷积对25个像素来抽取图像特征。在这里,得到的这些点就是你需要抽取特征的对象。(从图像转到点云处理的我,理解这个理解了好久。。。。)
PointNet layer:
使用PointNet来对一个个patch提取特征。
值得注意的是,输入pointnet的坐标需要进行一个处理。就是将每个点的坐标减去中心点坐标。其实这个也很好理解,我们使用pointnet来提取的是这个patch的特征,坐标剪完就是个相对坐标(相对于一个patch中心点的 坐标)。如果不减的话,你的坐标属于整个点云空间,那你提取的信息到底是想关于这个patch还是关于整个数据?
Robust Feature Learning under Non-Uniform Sampling Density:
1. Multi-scale grouping(MSG)
这个很简单也很好理解。例如一张图像,你可以提取3*3、5*5,7*7等大小的patch。在这里也一样,改变上述圆的半径自然尺度也不一样。
2.Multi-resolution grouping(MRG)这个理解了很久,图b一开始是真的没看明白。。。
假如说现在有一个区域,我们先group成10组,抽取特征,再将这个区域group成3组,再提取特征(e.g. 两个set abstract level),构成了左边的那个向量。右边的向量就是对这个区域直接提取特征。这个方法明显计算复杂度低于MSG。
除此之外,作者还是用dropout随机的删除一些点,来达到不同稀疏程度的效果(可以理解成在图像中我们随机的blur一些区域,来达到数据扩充的效果)。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
3D视觉工坊 认证博客专家 算法 3D视觉 个人公众号:3D视觉工坊。公众号特邀嘉宾及合伙人,先后就职于国内知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,博客专家。博主先后任职于国内知名研究院、知名大厂,致力于3D视觉算法、VLAM算法开发,涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究,同时也是博客专家。3D视觉工坊坚持原创,近一年来输出了非常多的高质量文章,获得了粉丝的一致好评,我们将始终坚持走原创路线,打造一个铁杆粉丝的聚集区。