人类对世界的感知大约80%是通过视觉获取的,因此,如何让计算机具备甚至超越人类的视觉能力一直以来都是科学研究的重要方向。图像文字识别技术是计算机视觉技术的重要组成部分,在日常生活中具有重要的价值和意义。

前语

人类对国际的感知大约80%是通过视觉获取的,因而,怎么让计算机具有乃至逾越人类的视觉才干一直以来都是科学研讨的重要方向。图画文字辨认技能是计算机视觉技能的重要组成部分,在日常日子中具有重要的价值和含义。

现状

图画文字辨认是指辨认图画中的文字。传统的文字辨认的一般结构如图1所示,包含预处理、特征提取、分类器规划三个首要模块[1]。首要通过预处理操作,构成规则的图片大小,使字符方位在图片中心,然后对预处理后的图片提取字符特征,***分类器依据提取的特征对字符进行分类。图画文字辨认的预处理部分首要包含样本归一化、平滑去噪、伪样本生成技能;特征提取部分能够分为结构特征和计算特征两种,结构特征首要是对文字结构、笔画或部件来进行提取,计算特征现在比较常用的是Garbor特征和Gradient特征;分类器常用的有SVM、HMM、二次判定函数等。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第1张

图1 传统文字辨认结构图

近几年,根据上述办法在辨认性能上的研讨进展不大,首要是字符分类成果首要依赖于提取的特征,可是很难规划出比较稳健的特征。而自从有了深度学习技能,文字辨认又有了新的生机,咱们能够运用深度学习技能如CNN、DNN、RNN能够把文字辨认问题处理的很好而且辨认进程也不像传统办法那么杂乱,不用做预处理和手艺规划特征、提取特征操作,直接将文字图画作为网络的输入。而且文字辨认一直是深度学习一个首要的运用方向,上世纪90年代,深度学习的先驱者如Y. Lecun和Bengio协作规划了LeNet5处理了手写数字辨认问题,图2是他们在贝尔实验室做的Demo。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第2张

图2 手写数字辨认demo图

而简略运用深度学习处理汉字辨认,作用并不是很抱负,近几年研讨者针对汉字辨认问题也做了许多的作业,发现加上一些范畴的常识并结合CNN的办法能够更好地处理中文辨认问题。如运用数据生成技能生成许多的样本数据来避免过拟合问题[2]和传统特征提取办法结合CNN办法进步辨认作用。Zhong[3]等人提出用特征提取+CNN的办法来辨认手写汉字,提取的特征是八方向的Garbor特征、梯度特征和HOG特征,积字的特征图如图3所示。他们改善的AlexNet和GoogleNet网络结构如图4与图5所示,和原先结构比较他们在输入层做了改善,将特征图画也作为输入层,***的集成网络结构的辨认成果在CASIA-HWDB数据集上到达96.74%,***超越人类的辨认水平(96.13%)。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第3张

图3“积”字特征图

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第4张

图4 离线手写体汉字辨认AlexNet结构图

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第5张

图5 离线手写体汉字辨认GoogleNet结构图

现在,运用深度学习技能进行单字符辨认在某种程度上取得了很好的作用,许多学者开端研讨含序列信息的文本行的辨认[4]。针对此问题,有极大潜力的处理办法是运用神经回归网络(RNN)模型、LSTM、BLSTM(Bidirectional long short term memory)等模型,由于这些模型对序列数据有很好的建模才干,因而它们合适处理有时序先后顺序信息的文字行辨认的问题。根据LSTM-RNN办法在英文、拉丁文等西方言语的文本行辨认中取得了很好的作用[5-7],文献[8]***将LSTM-RNN模型用于中文的文本行辨认,也到达此范畴先进的水平。总归RNN+CNN能够练习端到端的深度学习模型,也是研讨文字辨认的首要办法。

运用

文字辨认在日子中有广泛的运用。例如咱们比较了解的移动设备上的手写文字辨认,手写输入功用已成为移动设备(手机、pad)的标配。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第6张

图6 移动设备手写辨认

文字辨认完成办公自动化将纸质文件转换为电子文档。还有证件的辨认和邮政地址的辨认也早已得到运用。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第7张

图7 文档图画辨认

此外,文字辨认还有许多风趣的运用,比方能够辅佐咱们进行图画的查找和分类,AR眼镜完成实时场景包含街景文字的翻译。

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第8张

图8 场景文字辨认

在未来,文字辨认也有很大的运用商场,如在图画查找引擎、自动驾驶、金融保险、AR、智能机器人、教育医疗等方面都有许多的运用[9]。而且还能够发生许多的立异运用,如能够让瞎子看懂国际、瞎子看大片等。

结语

现在的人工智能中有不同的辨认引擎,也就相当于用不同的眼睛来处理视觉感知问题,而且文字辨认作为人工智能中一个典型的模式辨认问题,虽阅历了几十年的开展取得了很好的成果,但做的还不行智能和通用。其在许多方面都还值得研讨,如把手写、表单、手刺、场景文字等用一个通用的一致的计划来处理这个问题,这样文字辨认这个眼睛才干真实称得上是人工智能中一只才智的眼睛。

参考文献:

[1] 金连文, 钟卓耀, 杨钊,等. 深度学习在手写汉字辨认中的运用总述[J]. 自动化学报, 2016, 42(8):1125-1141.

[2] Yang W, Jin L, Liu M. Chinese character-level writer identification using path signature feature, DropStroke and deep CNN[J]. 2015:546-550.

[3] Zhong Z, Jin L, Xie Z. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:846-850.

[4] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[J]. 2016.

[5] Frinken V, Uchida S. Deep BLSTM neural networks for unconstrained continuous handwritten text recognition[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:911-915.

[6] Rawls S, Cao H, Kumar S, et al. Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR[C]// Iapr International Conference on Document Analysis and Recognition. IEEE Computer Society, 2017:155-160.

[7] Simistira F, Ulhassan A, Papavassiliou V, et al. Recognition of historical Greek polytonic scripts using LSTM networks[C]// International Conference on Document Analysis and Recognition. 2015:766-770.

[8] Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN[C]// International Conference on Document Analysis and Recognition. IEEE, 2015:171-175.

[9] https://v.qq.com/x/page/u0516hq8ql5.html.

 图画文字辨认—人工智能的慧眼(人工智能识别图片文字) 图像 文字 识别 第9张

【本文为51CTO专栏作者“我国保密协会科学技能分会”原创稿件,转载请联络原作者】

戳这儿,看该作者更多好文

转载请说明出处
知优网 » 图画文字辨认—人工智能的慧眼(人工智能识别图片文字)

发表评论

您需要后才能发表评论