目录 目录 什么是OCR以及它是如何工作的? 步骤1.检查文档类型和图像预处理步骤2.字符识别步骤3.后处理 OCR是机器学习和计算机视觉任务OCR业务案例金融服务中的OCR医疗保健中的 OCR 零售OCR OCR在安全和执法 用于OCR的硬件 开箱即用的解决方案vs自定义OCR开发商业VS开源OCR解决方案 OCR技术的局限性及如何克服关键优势 随着人们对OCR和机器学习的兴趣与日俱增,越来越多的企业主正在寻找应用这种杀人组合来优化他们的业务流程的方法,如果你是其中之一,这篇文章适合你。 让我们详细了解一下OCR是什么,机器学习驱动的OCR与原始技术有何不同,以及它如何在业务中使用。 什么是OCR以及它是如何工作的? 光学字符识别(OCR),也称为文本识别技术,将包含书面文本的任何类型的图像转换为机器可读的文本数据。OCR允许您快速自动数字化文档,而无需手动输入数据。这就是为什么OCR通常用于业务流优化和自动化。OCR的输出进一步用于电子文档编辑和紧凑数据存储,并且还形成认知计算、机器翻译和文本到语音技术的基础。 有不同类型的OCR取决于他们解决的任务: ●智能单词识别(IWR)用于识别无约束的手写单词,而不是识别单个字符。 ●智能字符识别(ICR)是基于更新算法的OCR的更高级形式,可收集有关手印字符变化的更多数据。 ●光学单词识别(OWR)逐字扫描打字文本。 ●光学标记识别(OMR)用于识别人们在调查、测试等上标记的信息。 让我们找出OCR是如何工作的。传统光学字符识别系统的功能包括三个阶段:图像预处理,字符识别,后处理。 步骤1.检查文档类型和图像预处理 文本识别的主要挑战是每个文档模板都有自己的实体集、值和实体在文档中的位置。为了使OCR软件能够准确工作,它必须能够识别不同类型的文档,并在此基础上运行正确的predefied管道。例如,PDF文档可能包含或不包含文本层。如果PDF不包含文本层,我们必须对其进行细致的处理。 在选择正确的流水线之后,图像进入预处理步骤。 这是一个准备步骤,影响结果。图像预处理有助于去除图像噪声,增加背景和文本之间的对比度,这将有助于提高文本识别。在此步骤中,OCR程序将文档转换为黑白版本,然后分析其是否存在亮区域和暗区域。浅色区域被识别为背景,而深色区域被识别为要处理的字符。 步骤2.字符识别 通过使用特征检测和模式识别算法来检测单个字符。然后,将一组字符组装成单词和句子。使用模式识别或特征检测算法来识别字符。 ●模式识别是一种基于图像文本和嵌入系统中的各种字体和格式的文本样本之间的匹配的方法。这种方法最适用于打字稿,当遇到系统中未包含的新字体时,它不能很好地工作。 ●特征检测算法使得可以通过应用关于字符的各个特征的规则来识别新字符,这些特征可以包括比较符号中的斜线、相交线或曲线的数量。 大多数情况下,带有特征检测的OCR程序使用基于机器学习或神经网络的分类器来处理字符。分类器用于将图像特征与系统中存储的示例进行比较,并选择最接近的匹配。特征检测算法适用于不寻常的字体或 字体失真的低质量图像。 步骤3.后处理 一旦一个符号被识别,它就会被转换成一个代码,可以被计算机系统用于进一步处理。我们应该提到,任何OCR和OCR相关技术/算法的输出都有很多噪声和误报。直接使用OCR的输出是非常困难的,所以我们必须: ●滤除嘈杂的输出和误报 ●将识别的实体与其提取的含义相结合 ●检查可能的错误,并防止输出给用户(如果有) 根据统计数据,系统可以检测一些典型的OCR错误,例如与字符和单词的相似性有关的错误 。因此,在此 在这一阶段,系统会对FW进行校正,以提高OCR输出的质量。 OCR是一个机器学习和计算机视觉任务 光学字符识别是主要的计算机视觉任务之一。计算机视觉允许系统查看和解释现实世界的对象,并识别将它们与复杂背景分开的文本。OCR的早期版本必须用每个字符的图像进行训练,一次只能使用一种字体。现代机器学习算法使文本 识别过程更先进,为大多数字体提供更高水平的识别精度,无论输入的数据格式。 机器学习(ML)的进步为OCR的发展提供了新的动力,显著增加了其应用的数量。有了足够的训练数据,OCR机器学习算法现在可以应用于任何需要识别和文本转换的现实场景。 例如,收据扫描,打印文本的扫描,将其进一步转换为合成语音,标记识别,车牌识别等。 使用现代机器学习算法可以显着改进技术,并将其用例扩展到更复杂的用例。例如,具有深度学习的OCR不仅允许图像分类,还允许图像分析和从不同对象中提取更复杂的数据 ,包括数百种手写字体或语言。 OCR业务案例 业务中的OCR应用有多种场景。由于使用机器学习的文本识别比早期版本的光学字符识别提供了更高的准确性,这允许企业所有者创建OCR解决方案来解决更广泛的业务挑战。现代OCR系统用于安全、银行、保险、医药、通信、零售公司和其他行业。 OCR技术的用例包括检查测试答案,实时翻译,识别路标(Google街景),搜索照片(Dropbox)等。光学字符识别也被安全团队广泛使用。该技术有助于分析和处理诸如驾驶执照或ID之类的文档,以验证个人身份。对于每种情况,都使用完全不同的OCR解决方案。 金融服务中的OCR 金融交易涉及大量的数据输入。手动处理这些数据需要大量的时间和精力,而财务文件的数字化和使用OCR从其中提取必要的信息使业务流程变得流畅和优化。因此,OCR技术改善了客户入职并增强了整体客户体验。 银行和fi金融部门的光学字符识别用途包括以下内容: ●客户入职。无论您要进行什么金融交易,无论是开户,提现还是转账,您都需要进行身份验证以证明您的身份。OCR技术提供了一个完全自动化的入职流程,包括扫描身份证件(例如ID,护照或驾驶执照),使用OCR提取必要的数据(例如姓名,出生日期, 性别、照片、签名等)并进行检查。例如,OCR 引擎可以实时检查所提供的签名是否与身份证件上的签名相匹配。 ●扫描到付款功能。手动输入付款详细信息不排除 错误,并花费比预期更多的时间。扫描支付功能使用光学字符识别即时捕获发票数据并自动处理。用户只需要智能手机相机即可完成此操作(例如,您可能需要为信用卡拍照) 。OCR还可以在付款时充当额外的安全功能。通常,用户将持卡人数据存储在应用程序中,希望每次都不输入卡号和其他详细信息。使用OCR,您只需要启用OCR功能,即可在几秒钟内为每个新数据提取数据。 付款,然后将其删除。 ●收据识别。OCR允许自动从收据中提取数据,以进行进一步的会计、归档或文档分析 。您可以在财务助理应用程序中使用资金跟踪元素来实现此功能,以便自动输入费用和费用类别。Expensify是此类应用程序的一个示例。 收据的高可变性和通常低质量是使用OCR进行准确收据识别的主要挑战。在这种情况下,基于规则的方法不可能是有效的,这就是使用深度学习进行光学字符识别的地方。OCR的深度学习方法允许系统从接收到的数据中学习并改进。该技术允许训练模型以识别图像中很可能包含文本的感兴趣区域(RoI),而忽略背景等冗余数据。 ●贷款处理。OCR和机器学习文本识别工具可以 将贷款和抵押申请的处理速度提高了70%。数据输入的自动化使审查申请以及批准或拒绝申请的过程更快,更多 AI算法可以从应用程序中解析所需的数据,以确定是否应该被批准或拒绝基于fi金融机构的规则。 OCR在fiNance中的用例不限于上述。该技术可用于处理其他fi财务文件,如发票、合同 、账单、财务报告等。 OCR在医疗保健中的应用 医疗保健行业中的OR病例与数据管理密切相关。根据世界经济论坛的数据,医院每年平均产生50PB的数据。这些数据包括医疗报告,处方表格,索赔,实验室检查结果和医疗记录。医疗文件的数字化和数据的有效提取是医疗机构运作的一个关键方面。 通过应用光学字符识别技术,医院可以更快地将论文翻译成数字格式,并将其存储为PDF文档,可以使用关键字轻松搜索。电子病历解决了医院的主要问题之一,患者医疗信息的丢失 。此外,OCR允许从认证或测试结果中提取数据,并将其发送到医院信息管理系统(HIMS )以集成到患者记录中,从而形成完整的患者病史。 制药系统也可以利用OCR。借助OCR模块,此类系统可让您扫描医疗处方并将其导入软件 ,以检查药房数据库中药物的存在,甚至用它来控制采摘机器人。 OCR技术也用于帮助有视觉障碍的人,通过扫描图像上的文本,OCR系统为使用 文本到语音技术。您所要做的就是扫描文本以获得合成语音输出。例如,VoiceSpeechScanner应用程序使用 智能手机的相机可以捕获带有文字的照片,然后读取所有文字。这是在深度学习图像字幕技术之后,为视觉障碍人士提供的新帮助 生成图像的文字描述。 零售OCR 零售商生产许多不同的文件,如装箱单、发票、采购订单、收据、产品说明等。这些都是大量的信息,然而,由于复杂和耗时的处理,这些信息没有被正确使用。 使用具有机器学习的OCR,零售商可以体验内部业务流程的快速发展,并通过充分利用现有数据来改善客户体验。例如,商家可以从采购订单分析中提取有价值的见解,以创建更有效的营销活动、促销活动,并更好地管理定价。通过将发票和收据转换为数字格式并将其纳入会计系统,零售公司有机会自动化其会计流程。 ImplementingOCRisagreatwaytohandlethelargeworkloadofretailworkers.Withautomaticdataentryanddataextraction,employeesareleftwithonlymanualverificationtoachieveoptimalresults. 在零售中使用OCR的情况不限于上述情况。文本识别功能可以解决零售公司的一些特殊挑战 。例如,该技术可以为葡萄酒商人提供广泛的产品。使用基于OCR的葡萄酒标签识别,用户可以拍摄葡萄酒标签的照片并获得产品信息,例如评论,描述等。帮助他们做出正确的选择 。 OCR在安全和执法 几乎任何行业都可以利用OCR作为其安全策略的一部分。使用机器学习提供支持的OCR,公司有机会构建高级用户身份验证和验证系统。通常,带有提供的个人信息的手动比较文档和自我用于验证用户提供的身份的真实性。OCR模型通过扫描身份证,护照或驾驶执照并检查其真实性,将其与数据库中的信息进行比较,从而消除了这些手动操作。 Inthiscase,theOCRenginemustfirstrecognizethedocumenttype.Forexample,ifauserchoosetoauthenticatewithadriver'slicense,thedocumenttheyuploadtothesystemmustconformtothatdocumentformat.Thenthe 系统应分析和处理上传的用户文档以获取相关数据。 由于同一类型的文档可能具有不同的格式,取决于国家或州,系统必须能够从所有变体中找到并提取必要的数据。使用深度学习算法可以帮助OCR系统理解不同文本块之间的相对位置关系,并将多对语义连接的文本块与相关数据(如姓名、出生日期等)结合起来。 ItisalsoworthmentionthatsecureauthenticationOCRsoftwareshouldhavefeaturestopreventspooffingattemptswhenparsolutiondocuments.Anti-spooffingtechniqueswillhelpthesystemdetectfakeIDscanandotherfraustring 尝试。 光学字符识别技术也广泛用于自动车牌识别(ANPR)。这项技术对于执行tra_c法律的相机非常有帮助。ANPR还用于收费公路上的电子收费,停车场管理,公交车道执法和trc管理。一般来说,基