我们准备使用基于attention的方法来实现数字公式识别的任务~
公式识别的数据集我们使用im2latex-100k;
数据集中有空白图片: 数据集中有全部是空白的图片,(后面预处理时会直接截取出空白的图片); 数据集样本数:103536个图片 (formula_images文件夹中会多一个texput.log文件)
主干网络使用的是ResNet34_vd; 权值初始化使用了Kaiming初始化的方法;
对于模型本身,在前向推理的时候没有使用“置信度激活”; 不过在训练的时候,我们加入了“softmax”对概率值进行了“非线性激活”,这样可以帮助模型的收敛; Note:在模型的最后,则不需要加入softmax函数, 因为softmax是一个单调增函数,为了降低计算量,我们在推理时也就不用再经过softmax的运算了。
在南溪看来,Word Embedding是一项很好的技术; 它将单词用embedding进行表示,从而使得embedding具有了(在距离上的)语义信息; 那么Word-Embedding技术如何用于数字公式识别呢? 其实这里是使用了一种类似于self-supervised的思想,首先我们假设: 我们可以从单词的one-hot编码,映射出一种多维度的特征, 这里有点像“转置卷积”中的“补绘”的思想! 所以我们的目标就是学习出这样的embedding, 这里我们首先建立了模型的映射关系,然后用模型表达出来,对结果进行有监督地训练; 从而完成了embedding的自监督学习;