研究报告|2022/10 2022年中国文字识别OCR行业概览:产业数字化转型浪潮驱动OCR需求持续释放 ChinaTextRecognitionOCRIndustry 中国テキスト認識OCR産業 撰写人:周惠娜 报告标签:文字识别、OCR、计算机视觉 报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明�处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制 、再造、传播、�版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 www.leadleo.com 400-072-5588 1 头豹研究院 弗若斯特沙利文咨询(中国) 市场研读|2022/10中国:文字识别 摘要 近年来,中国关于数字化转型政策利好消息不断,建设数字经济成为十四五发展的重要目标,通过数字化转型整体驱动生产方式、生活方式和治理方式变革。而智能文字识别技术是促进数字化转型的原动力之一,可以帮助企业实现文档存量数字化、增量电子化,随着企业与政府数字化、信息化与智能化需求的不断提高,预计将持续推动智能文字识别服务行业发展 在中国经济中高速增长的背景下,中国企业由2012年的不足1,000万上升至2022年的2,500万,企业数量翻倍增长,企业在经济运营的过程当中产生大量的文档、表格、图片、发票等非结构数据,非结构数据无法使用数据库二维逻辑表来表现和处理,其提取、存储、转化和解析等价值挖掘推动了OCR技术的应用落地,为企业客户实现降本增效 文字识别是指利用光学和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式 文字识别技术俗称光学字符识别(OpticalCharaterRecognition,简称OCR),是指利用光学和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式 新增细分应用场景和数字经济发展内外驱动为文字识别带来稳定市场增长动能 文字识别内驱力上,市场每年能保持20%左右的新增细分应用场景的挖掘;外驱动力上,近年来,国家大力推动数字经济发展,从企业端来看,数字化技术商业化落地是实现企业数字化转型和降本增效的必经之路;从个人用户端来看,用户对于文档资产化管理意识和需求不断增加。新增细分应用场景和数字经济发展内外驱动为文字识别带来稳定的市场增长动能 www.leadleo.com 400-072-55882 内容目录 1 文字识别OCR行业综述06页 •定义与背景 •传统OCR技术 •深度学习OCR技术 •发展历程 2 •市场规模 文字识别OCR产业链12页 •产业链图谱 •产业链上游技术 •产业链中游——产业生态架构 •产业链中游——厂商分类 •产业链中游——商业模式 •产业链中游——专利分析 •产业链下游——企业级应用 3 •产业链下游——消费级应用 文字识别OCR行业分析21页 •行业政策 •驱动力 •发展趋势 4 •竞争格局 文字识别OCR企业分析26页 •合合信息 •阿里云 •百度智能云 研究目标 研究目的 •本研究通过了解OCR的技术的演变、推算市场空间、拆解产业链,洞察厂商商业模式并结合市场发展前景判断竞争者所处的市场地位,未来下游不同行业和不同应用场景的发展趋势等 •本研究结果将通过市场表现指数体现竞争者维持现有市场地位的能力,通过创新指数体现竞争者进一步提高市场地位的能力 研究目标 •分析中国文字识别行业的关键技术 •预测中国文字识别行业市场规模 •探析中国文字识别行业产业链情况 •预判中国文字识别行业发展态势 •分析中国文字识别行业竞争研判 本报告的关键问题 •市场空间:中国文字识别行业市场规模情况如何?未来增长情况如何? •产业链情况:中国文字识别行业厂商所在产业链构成是怎样的?未来格局会如何演化? •行业竞争分析:中国文字识别行业厂商竞争情况如何?有哪些行业领导者 名词解释 OCR:光学文字识别(OpticalCharaterRecognition),是指利用光学和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式 API:应用程序编程接口(ApplicationProgrammingInterface,简称API)是应用系统对外开放功能 的调用接口,为用户或开发人员提供嵌入自身软件或硬件的接口服务 SDK:指软件开发工具包(SoftwareDevelopmentKit,简称SDK)是工程师在特定的软件包、软件框架、硬件平台、操作系统上开发应用软件时,所使用的开发工具的集合,帮助用户对应用系统 (或程序)进行二次开发,扩展系统功能 NLP:自然语言处理(NaturalLanguageProcessing,简称NLP)技术是人工智能的一个子领域,是计算机科学、人工智能和语言学的交叉领域。用于分析、理解和生产自然语言,NLP技术是实现机器与人沟通的大前提,决定了机器对语言的理解能力 RPA:机器人流程自动化软件(RoboticProcessAutomation,简称RPA),是一种新型的人工智能 的虚拟流程自动化机器人 深度学习:是机器学习的一种方法,通过建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释复杂数据,例如图像,声音和文本等 ICDAR:国际文档分析识别大会(InternationalConferenceonDocumentAnalysisandRecognition, 简称ICDAR)是全球文档图像分析识别领域公认的权威学术会议,由国际模式识别学会(InternationalAssociationforPatternRecognition,IAPR)组织,从1991年起每两年召开一次 ICFHR:手写识别前沿国际会议(InternationalConferenceonFrontiersinHandwritingRecognition, 简称ICFHR)由国际模式识别学会(InternationalAssociationforPatternRecognition,IAPR)主办 5 Chapter1 行业综述 文字识别技术俗称光学字符识别(OpticalCharaterRecognition,简称OCR),是指利用光学和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式 市场规模:2021年文字识别市场规模达到25.5亿元,市场规模保持平稳增长。预计2027年将近100万元,百亿市场规模突破有望,2022-2027年期间复合增长率为24.84% www.leadleo.com400-072-5588 中国文字识别OCR行业综述——定义与背景 •文字识别是指利用光学技术和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式。在中国经济中高速增长和数字化转型的背景下,文字识别需求端爆发,加速商业化应用落地 文字识别OCR的定义与核心优势 文字识别技术俗称光学字符识别(OpticalCharaterRecognition,简称OCR),是指利用光学和计算机技术将图像中印刷或手写文本转换为计算机可以直接处理的格式 成本下降 效率上升 适用性强 成本下降:通过机器来代替人工,可以大幅降低人工成本,能降低50%-95%的人力成本。商用价值较高,是AI落地较快的领域。据顺丰统计,顺丰快递使用OCR产品之后,实现3小时内识别2000万运单的识别,相关人力成本节约在50%左右 效率上升:相比于传统的手工录入方式,能够显著的提升信息录入的效率。另一方面,信息电子化促进了信息的流动和提升了存储的量。根据保险公司信息,通过运用OCR后保险理赔的流程由原先的4-6天缩短至1天之内,效率的提升300%-500% 适用性强:OCR技术能够实现多场景和多语言的识别。支持错行、盖章、倾斜、文字叠加、反光和任意角度等复杂场景的识别。在语言上,不仅能解决英文、德文等多国语言的识别,也能实现复杂的古文字的识别,2021年,合合信息在世界人工智能大会上上演了提取甲骨文等复杂文字 文字识别OCR的发展背景 数字化转型背景下,文字识别是促进数字化转型的原动力之一 近年来,中国关于数字化转型政策利好消息不断,建设数字经济成为十四五发展的重要目标,通过数字化转型整体驱动生产方式、生活方式和治理方式变革。而智能文字识别技术是促进数字化转型的原动力之一,可以帮助企业实现文档存量数字化、增量电子化,随着企业与政府数字化、信息化与智能化需求的不断提高,预计将持续推动智能文字识别服务行业发展 中国经济中高速增长背景下非结构数据爆发性增长,推动文字识别应用落地 机器与现实世界的交互催生了文字识别技术 将图像中的文字转变为机器可读可处理的字符信息,是机器与现实世界进行视觉交互的重要基础,因此催生了文字识别技术 中国经济在中国经济中高速增长的背景下,中国企业由2012年的不足1000万上升至2022年的2500万,企业数量翻倍增长,企业在经济运营的过程当中产生大量的文档、表格、图片、发票等非结构数据,非结构数据无法使用用数据库二维逻辑表来表现和处理,其提取、存储、转化和解析等价值挖掘推动了OCR技术的应用落地,为企业客户实现降本增效 来源:专家访谈、腾讯、信通院、头豹研究院 中国文字识别OCR行业综述——传统OCR技术流程 •传统OCR基于图像处理和统计机器学习来提取图片上的文本内容。样本量较少、识别数据保护要求较高等细分应用领域仍以传统的OCR识别技术为主要使用方法 图像输入 文本区域定位 文本图像矫正 行列单字切分 文本输� 具体技术 亮度调整、图像增强、噪声滤波、灰度化 连通域检测文 本法、MSER检测文本法 水平矫正、二值化、连通透视矫正域轮廓切割、垂直投影切割 SVM、逻辑回归、向量机 统计模型、语言规则 后处理 分类器识别 图像预处理 传统OCR技术流程 传统OCR基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习 (Adaboot、SVM),提取图片上的文本内容,其技术流程为图像预处理、文本区域定位、文本图像矫正、行列单字切分、分类器识别和后处理。由于部分应用场景的样本量较少等原因,不适合用于深度学习的识别方法,仍继续使用传统的OCR识别法,当前市场上仍有20%的细分应用场景仍以使用传统的OCR识别法为主 图像预处理:文本图像经过机器扫描之后进入预处理阶段,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生干扰,因此需要对图像进行亮度调整、图像增强和噪声滤波等预处理手段 文本区域定位:文本区域定位是在图像进行预处理手段后对于文本进行提取,提取方法主要包括连通域检测文本和MSER检测文本。 文本图像矫正:对于倾斜文本进行矫正,确保文字是水平的,提高文本检测的准确性。文本图像矫正的办法主要包括水平矫正和透视矫正 行列单字切分:传统文本识别不能直接对于文本行进行识别,因为词与词之间的组合无法枚举穷尽,对这些词组直接分类任务艰巨,因此传统的文本识别都是基于单字符的识别。传统字符的分割方法主要利用连通域轮廓或垂直投影对字符进行切割。 分类器识别:首先运用HOG或Sift等算法对字符进行特征提取,分类器对提取的特征进行分类,分类的过程是告诉机器这个文字是什么的一个过程,在实际进行识别之前,还需要对分类器进行训练,分类器选择支持SVM算法、逻辑回归、向量机等进行训练,模型训练完成之后就可以集成端到端进行预识别和实际识别 后处理:进行语义纠错。由于分类器的分类不一定完全正确,或者在字符切割过程当中存在失误,所以需要基于统计语言模型(如隐马尔科夫链,HMM)或者人为提取规则设计语言规则模型对文本结果进行语义纠错 来源:华为云、CSDN、头豹研究院 中国文字识别OCR行业综述——深度学习OC