论文介绍|面向场景文本识别的带聚焦注意力机制的convLSTM


原标题:论文介绍|面向场景文本识别的带聚焦注意力机制的convLSTM

本文简要介绍SCIENCE CHINA Information Sciences 2020特刊Special Focus on Deep Learning for Computer Vision的论文“FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition”的主要工作。该论文针对传统全连接式LSTM(FC-LSTM)无法充分利用二维文本图像空间信息的缺点,提出了一种基于ConvLSTM的自然场景文本识别算法,实验证明该算法在常规文本数据集IIIT5K上,高噪声低分辨率文本数据集SVT和弯曲文本数据集CUTE上都取得了SOTA的性能。

论文信息:

FACLSTM: ConvLSTM with focused attention for scene text recognition

Qingqing WANG1,2, Ye HUANG2, Wenjing JIA2, Xiangjian HE2,Michael BLUMENSTEIN2, Shujing LYU1 & Yue LU1,3*

2 Faculty of Engineering and Information Technology, University of Technology Sydney, Sydney 2007, Australia;

一、研究背景

在深度学习时代,受语音识别和机器翻译的影响,文本识别被广泛当作序列-序列预测问题进行研究,其中,LSTM在现有文本识别算法中扮演着帧级编码、帧级识别以及与注意力机制结合进行序列解码等举足轻重的角色。然而,LSTM是为处理时序信号提出的模型,它以一维向量作为输入和输出,所以并不能直接应用在二维图像上。为了适应LSTM,现有算法提出了两种解决方案,一是利用池化操作(Pooling),将特征图的高度降为1;二是利用平展操作(Flatten),对像素重新排列(列主导),将二维特征图强行转换为一维特征向量(Figure 2)。这种任务适应模型的做法导致二维图像的空间/结构信息和像素空间相关性信息被破坏,严重影响了已有算法的识别性能。针对上述问题,也有研究者提出了LSTM-free的算法,但是这些算法要么需要复杂和后处理操作,要么效率和性能低于基于LSTM的识别器。

二、原理简述

FACLSTM的模型结构如下图所示,该模型是一个典型的编码-解码结构,以嵌入Deformable Convolution的VGG作为Backbone, 设计了两个解码分支,一个是常规地进行特征检测的分支,另一个是用于检测字符中心掩码的分支。注意,在其他现有文本识别模型中,注意力加强模块通常嵌入在Encoder中,模块提取的特征图通过在Decoder阶段与特征图进行Element-wise Add达到增强注意力的效果,而本文中,作者认为在更高层的Decoder阶段嵌入加强注意力模块更有效,且通过实验证明,Concat比Element-wise Add效果更好,即后续的序列解码模块更倾向于从生特征图中学习知识,而不是Fusion之后的特征图。

在序列解码阶段,作者设计了一个Attention-equipped 的ConvLSTM模型来提取一些列的特征图,并用一个全连接和一个Softmax将这些特征图映射为各个Time Step的字符输出。为了将Attention 机制和谐地嵌入到ConvLSTM中,作者对ConvLSTM模型进行了改进,使用卷积操作计算二维Attention输出,结构和对应公式如Figure 5, Eq. 3 和Eq. 4.

三、主要实验结果

本文中,作者仅用SynthText数据集进行训练,在IIIT5K, SVT和CUTE上分别进行了测试,注意,CUTE是弯曲文本数据集,空间信息对这类文本的识别尤其重要。

训练集对文本识别模型的性能影响很大,作为对比,我们列出了ICCV2019唯一一个文本识别算法(Symmetry-constrained Rectification Network for Scene Text Recognition)在只使用SynthText 时的性能,可以看出,在三个数据集上FACLSTM的性能都远远超过了该算法。

此外,本文作者还给出了Attention和字符中心预测的可视化结果,可以看出,二维Attention的覆盖范围比传统的一维Attention的覆盖范围更广,且预测更精确。

四、总结及讨论

"下载文章原文!

征稿启事: 计算机视觉中的深度学习

文案策划

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。