挖掘目标
本研报针对电商平台中的商品信息图片,旨在实现文本信息的自动提取与挖掘,主要分为字符检测和字符识别两个过程。通过MSER算法提取候选字符区域,结合先验知识进行筛选,并利用CNN网络进行字符识别,最终输出每幅图片所包含的文本信息。
数据分析
训练样本集包含1000张商品图片及其标注数据,测试样本集包含25张商品图片及其标注数据。数据集存在以下特征:
- 字符种类繁多:包含中文字符、英文字符、数字及标点符号。
- 字符间区分度较小:部分字符如C/c、O/o等易混淆。
- 背景复杂:存在简单背景和复杂背景,复杂背景下字符易受干扰。
- 字符存在旋转角度:需要保证旋转角度下字符的检测识别。
- 水印文字logo需要被检测。
- 样本不均:存在零样本、少样本、样本不均的字符。
分析方法与过程
本研报采用多阶段流程进行文本信息提取:
- 预处理:去除错误的标注文件,保证图片和标注框的正确显示。
- 字符检测:
- 候选区域提取:基于MSER算法的多通道候选字符区域提取,包括R、G、B、I及梯度强度通道。
- 粗筛选:根据字符区域形状特征进行筛选,包括面积筛选、垂直投影和字符宽度筛选。
- 字符结构分割:根据字符行区域的连通性进行筛选,并利用形态学处理和垂直投影得到单个字符区域。
- 字符/背景区域分类:利用HOG特征和SVM分类器、LeNet卷积神经网络和Fast-RCNN进行字符/背景区域分类,并采用非极大值抑制策略进行筛选。
- 检测结果回归:根据标注样本对预测的候选区域进行回归,得到更加准确的字符区域。
- 字符识别:
- 预处理:对字符图像进行灰度化、“字亮底暗”的预处理,缩小样本空间。
- 网络训练:自主设计CNN模型,并尝试CNN+HOG、集成CNN、双网和迁移CNN等方法改进模型。
- 在线识别:将提取的字符区域输入识别模型,得到预测的字符标签。
结果分析
- 字符检测结果:Fast-RCNN方法F1-score为0.524,优于HOG+SVM和LeNet-CNN方法。
- 字符识别结果:单网CNN识别正确率为70.5%,优于其他方法。
- 检测识别效果评估:F2-score为0.2676,验证了方法的有效性。
- 软件界面:提供了方便交互使用的软件界面,可视化字符检测和识别过程。
结论
本研报实现了对商品信息图片中字符的检测和识别,为网络监管提供了技术支持。未来将致力于基于深度学习的字符检测方法研究,提高检测算法的普适性,并将检测和识别深度网络融合为一个整体。