从二元函数的泰勒展开到应用Hessian矩阵检测边缘

科技2022-08-05 102

一、二元函数的泰勒展开

二元函数 $f (x, y)$ 在某一点 $x_0,y_0)$ 的泰勒展开可以理解为 $f (x, y)$ 在这一点的函数值 $f(x_0,y_0)$ 加上 $x_0,y_0)$ 点的全微分 $d f$ ,再加上一个无穷小 $o(\rho)$ 。 $f(x,y)=f(x_0,y_0)+df+o(\rho)$ 其中 $df+o(\rho)=f_x dx + f_y dy + \frac{1}{2}f_{xx} dx^2 + \frac{1}{2}f_{xy} dx dy + \frac{1}{2}f_{yx} dx dy + \frac{1}{2}f_{yy} dy^2 + \cdots$ 则 $f(x,y)=f(x_0,y_0)+f_x dx + f_y dy + \frac{1}{2}f_{xx} dx^2 + \frac{1}{2}f_{xy} dx dy + \frac{1}{2}f_{yx} dx dy + \frac{1}{2}f_{yy} dy^2 + \cdots$ 为 $f (x, y)$ 在 $x_0,y_0)$ 的泰勒展开。

二、Hessian 矩阵

上面展开式中的二阶偏导函数可以组合成为一个矩阵,如下 $Hf(x,y)=\begin{bmatrix}f_{xx}(x,y)&f_{yx}(x,y)\\f_{xy}(x,y)&f_{yy}(x,y)\\ \end{bmatrix}$ $H f (x, y)$ 被称之为Hessian 矩阵, 它并不是一个普通的矩阵，而是一个由偏导函数构成的矩阵。也就是说， $H f$ 的具体取值只有在给定变量值 $(x, y)$ 时才能得到。那么构造这个矩阵的意义何在呢? 这个矩阵其实代表了这个二元函数的二阶导数,几何意义上代表了二元函数的曲率。怎么理解二阶导数代表二元函数的曲率呢?降维到一元函数来理解就好了。一元函数的一阶导数衡量梯度,二阶导数衡量曲率。例如,当 $f^{′′}(x)<0$ ， $f (x)$ 往上弯曲；当 $f^{′′}(x)>0$ 时， $f (x)$ 往下弯曲， $f^{′′}(x)$ 的绝对值越大,弯曲程度也就越大,故可以用来衡量曲线的曲率。一个单变量函数的二阶导数如下图所示。

三、Hessian 矩阵的特征值

在几何上,二次元函数其实代表了一个曲面,而曲面的主曲率又包含最大曲率和最小曲率,那么Hessian 矩阵又是怎样表示这两个曲率的呢? 答案就是通过它的特征值和特征向量。最大特征值和其对应的特征向量对应其邻域二维曲线最大曲率的强度和方向，即山坡陡的那面；最小特征值对应其邻域二维曲线最小曲率的强度和方向，即平缓的方向。 (关于特征值和特征向量的理解:从线性空间的角度看，在一个定义了内积的线性空间里，对一个N阶对称方阵进行特征分解，就是产生了该空间的N个标准正交基，然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基，而特征值的模则代表矩阵在每个基上的投影长度。)

四、应用Hessian 矩阵检测图片边缘

在图片特征点的边缘消除中,往往会用的Hessian矩阵。在曲面横跨边缘的地方会同时具有较大的最大主曲率和有较小的最小主曲率。给定一张图片的Hessian 矩阵如下 $\begin{bmatrix}I_{xx}(x,y) & I_{xy}(x,y)\\ I_{xy}(x,y) &I_{yy}(x,y) \end{bmatrix}$ 矩阵里面的每一项可以通过求取邻近点像素的差分得到。令 $α=λ_{max}$ 为最大的特征值(最大主曲率)， $β=λ_{min}$ 为最小的特征值(最小主曲率),如果 $\gamma$ 为最大特征值与最小特征值之间的比例，那么 $\alpha = \gamma \beta$ ，则 $\gamma$ 越大越接近于边界上的点。我们不想去求具体的 $\alpha\text{和}\beta$ 来得到 $\gamma$ ,而是用H 矩阵的迹和行列式去代表 $\gamma$ 。

则H 矩阵的迹和行列式分别为: $I_{xx}+I_{yy} = \alpha +\beta$ $I_{xx}I_{yy}-(I_{xy})^2=\alpha \beta$ 这样便有组合式 $T=\frac{Tr(H)^2}{Det(H)} = \frac{(\alpha+\beta)^2}{\alpha\beta} = \frac{(\gamma+1)^2}{\gamma}$ 上式中,当两个特征值相等时, T的值最小,随着 $\gamma$ 的增加,T的值也随之不断增大,也就是说T和 $\gamma$ 是同单调的,可以代表 $\gamma$ 。

所以我们要过滤掉这些边缘上的点,在Lowe的文章中,实验给出 $\gamma$ 的上限阈值为10。所以T的最大值应该为 12.1,每个待过滤的特征点分别计算组合T,只要T>12.1的就需要被过滤掉。

Processed: 0.009, SQL: 8