目录 目录 什么是OCR,它是如何工作的? STEP1.检查文档类型和图像预处理STEP2.字符识别步骤3.后处理 OCR是机器学习和计算机视觉任务OCR业务案例金融服务领域的OCR医疗保健领域 的OCR 零售OCR 安全和执法中的OCR OCR硬件 开箱即用解决方案vs自定义OCR开发商业VS开源OCR解决方案 OCR技术的局限性以及如何克服它们的关键要点 随着对OCR和机器学习的兴趣日益浓厚,越来越多的企业主正在寻找应用这种杀戮组合来优化其业务流程的方法,如果您是其中之一,那么本文就是为您准备的。 让我们进一步了解什么是OCR,机器学习驱动的OCR与原始技术有何不同,以及如何在业务中使用它。 什么是OCR,它是如何工作的? 光学字符识别(OCR),也称为文本识别技术,将任何类型的包含书面文本的图像转换为机器可读的文本数据。OCR允许您快速自动地数字化文档,而无需手动输入数据。这就是为什么OCR通常用于业务流程优化和自动化。OCR的输出进一步用于电子文档编辑和压缩数据存储,还构成了认知计算、机器翻译和文本到语音技术的基础。 根据他们解决的任务,有不同类型的OCR: ●智能单词识别(IWR)用于识别不受约束的手写单词,而不是识别单个字符。 ●智能字符识别(ICR)是一种更高级的OCR形式,它基于更新算法来收集更多关于手写字符变化的数据。 ●光学单词识别(OWR)逐字扫描打字的文本。 ●光学标记识别(OMR)用于识别人们在调查、测试等中标记的信息。 让我们看看OCR是如何工作的。传统的光学字符识别系统的功能包括三个阶段:图像预处理、字符识别、后处理。 步骤1.检查文档类型和图像预处理 文本识别的主要挑战是每个文档模板都有自己的一组实体、值和实体在文档中的位置。要使OCR软件准确运行,它必须能够识别不同类型的文档并在此基础上运行正确的预定义管道。例如,PDF文档可能包含也可能不包含文本层。如果PDF不包含文本层,我们必须以不同的方式处理它。 选择正确的管道后,图像进入预处理步骤。 这是一个影响结果的准备步骤。图像预处理有助于去除图像噪声,增加背景与文本的对比度 ,有助于提高文本识别。在这一步,OCR程序将文档转换为黑白版本,然后分析它是否存在明暗区域。亮区被识别为背景,而暗区被识别为要处理的字符。 步骤2.字符识别 通过使用特征检测和模式识别算法,可以检测到单个字符。然后,将一组字符组合成单词和句子。使用模式识别或特征检测算法识别字符。 ●模式识别是一种基于在图像文本和嵌入在系统中的各种字体和格式的文本样本之间寻找匹配的方法。这种方法最适合打字稿,当遇到系统中不包含的新字体时效果不佳。 ●特征检测算法可以通过应用有关字符的各个特征的规则来识别新字符。这样的特征可以包括比较符号中的斜线、相交线或曲线的数量。 大多数情况下,具有特征检测的OCR程序使用基于机器学习或神经网络的分类器来处理字符。分类器用于将图像特征与系统中存储的示例进行比较,并选择最接近的匹配。特征检测算法适用于异常字体或 字体失真的低质量图像。 步骤3.后处理 一旦一个符号被识别出来,它就会被转换成一个代码,可以被计算机系统用于进一步的处理。我们应该提到,任何OCR和OCR相关技术/算法的输出都有很多噪音和误报。这使得直接使用OCR的输出变得困难,所以我们必须: ●过滤掉嘈杂的输出和误报 ●将已识别的实体与其提取的含义相结合 ●检查可能的错误并防止输出给用户(如果有) 根据统计数据,系统可以检测出一些典型的OCR错误,例如与字符和单词的相似性相关的错误 。因此,此时 阶段,系统纠正缺陷以提高OCR输出的质量。 OCR是机器学习和计算机视觉任务 光学字符识别是计算机视觉的主要任务之一。计算机视觉允许系统查看和解释现实世界的对象,并识别将它们与复杂背景区分开来的文本。OCR的早期版本必须使用每个字符的图像进行训练,并且一次只能使用一种字体。现代机器学习算法使文本 识别过程更先进,并为大多数字体提供更高水平的识别准确度,无论输入数据格式如何。 机器学习(ML)的进步为OCR的发展提供了新的动力,显着增加了其应用数量。有了足够的训练数据,OCR机器学习算法现在可以应用于任何需要识别和文本转换的现实场景。 例如,收据扫描、打印文本扫描并将其进一步转换为合成语音、交通标志识别、车牌识别等。 使用现代机器学习算法可以显着改进技术并将其用例扩展到更复杂的用例。例如,具有深度学习的OCR不仅可以进行图像分类,还可以进行图像分析和从不同对象(包括数百种手写字体或语言)中提取更复杂的数据。 OCR业务案例 OCR在业务中的应用场景众多。由于使用机器学习的文本识别比早期版本的光学字符识别提供更高的准确性,这使企业主可以创建OCR解决方案来应对更广泛的业务挑战。现代OCR系统用于安全、银行、保险、医药、通信、零售公司和其他行业。 OCR技术的用例包括检查测试答案、实时翻译、识别路牌(谷歌街景)、搜索照片(Dropbox)等等。光学字符识别也被安全团队广泛使用。该技术有助于分析和处理驾照或身份证等文件,以验证一个人的身份。对于每种情况,都使用完全不同的OCR解决方案。 金融服务中的OCR 金融交易涉及大量数据输入。手动处理这些数据需要花费大量时间和精力,而财务文件的数字化和使用OCR从中提取必要信息可以使业务流程顺畅和优化。因此,OCR技术提高了客户入职率并增强了整体客户体验。 光学字符识别在银行和金融领域的应用包括: ●客户入职。无论您要进行何种金融交易,无论是开户、提取现金还是转账,您首先需要进行身份验证以证明您的身份。OCR技术提供了一个全自动的入职流程,包括扫描身份证件(例如身份证、护照或驾驶执照),使用OCR提取必要的数据(例如姓名、出生日期 、 性别、照片、签名等)并进行检查。例如,OCR 引擎可以实时检查提供的签名是否与身份证件上的签名匹配。 ●扫码支付功能。手动输入付款详情不排除 错误并花费比预期更多的时间。扫描付款功能使用光学字符识别来即时捕获发票数据并自动处理。用户只需要一个智能手机相机就可以做到这一点(例如,您可能需要为您的信用卡拍照)。OCR还可以在付款时充当额外的安全功能。通常,用户将持卡人数据存储在应用程序中,不希望每次都输入卡号和其他详细信息。使用OCR,您只需要启用OCR功能即可在几秒钟内为每个新的数据提取数据 付款,然后将其删除。 ●收据识别。OCR允许从收据中自动提取数据,以进行进一步的会计、归档或文档分析。您可以在财务助理应用程序中找到此功能,该应用程序具有资金跟踪元素,用于自动输入费用和费用类别的数据。Expensify就是这种应用程序的一个例子。 收据的高可变性和通常低质量是使用OCR准确识别收据的主要挑战。在这种情况下,基于规则的方法不能有效,这就是使用深度学习进行光学字符识别的地方。OCR的深度学习方法允许系统从接收到的数据中学习并进行改进。该技术允许训练模型来识别图像中极有可能包含文本的感兴趣区域(RoI),而忽略背景等冗余数据 。 ●贷款处理。OCR和机器学习文本识别工具可以 将贷款和抵押贷款申请的处理速度提高70%。数据输入的自动化使审查申请和批准或拒绝申请的过程更快、更快捷 对公司来说具有成本效益。人工智能算法可以从应用程序中解析所需的数据,以确定是否应该批准或拒绝 根据金融机构的规定。 OCR在金融领域的用例不限于上述。该技术可用于处理其他财务文件,如发票、合同、账单 、财务报告等。 医疗保健中的OCR 医疗行业的OСR案例与数据管理密切相关。根据世界经济论坛的数据,医院每年平均产生50PB的数据。这些数据包括医疗报告、处方表、索赔、实验室测试结果和医疗记录。医疗文件的数字化和从中有效提取数据是医疗机构运作的一个关键方面。 通过应用光学字符识别技术,医院可以更快地将论文翻译成数字格式,并将其存储为PDF文档,可以使用关键字轻松搜索。电子病历解决了医院的主要问题之一,即患者的医疗信息丢失。此外,OCR允许从证书或测试结果中提取数据并将其发送到医院信息管理系统(HIMS)以集成到患者记录中,从而形成患者的完整病史。 制药系统也可以利用OCR。借助OCR模块,此类系统允许您扫描医疗处方并将其导入软件,以检查药房数据库中药物的存在,甚至使用它来控制拣货机器人。 OCR技术也用于帮助有视力障碍的人。通过扫描图像上的文字,OCR系统提供了使用的基础文字转语音技术。您所要做的就是扫描文本以获得合成语音输出。例如,VoiceSpeechScanner应用程序使用 智能手机的相机捕捉带有文字的照片,然后读取所有文字。这是继深度学习图像字幕技术提供自动 生成图像的文本描述。 零售OCR 零售商制作许多不同的文件,例如装箱单、发票、采购订单、收据、产品说明等。这些是大量的信息,但是由于复杂且耗时的处理,这些信息没有被正确使用。 将OCR与机器学习结合使用,零售商可以体验内部业务流程的快速发展,并通过充分利用现有数据来改善客户体验。例如,商家可以从采购订单分析中提取有价值的见解,以创建更有效的营销活动、促销活动并更好地管理定价。通过将发票和收据转换为数字格式并将其整合到会计系统中,零售公司有机会实现其会计流程的自动化。 实施OCR是处理零售员工的大量工作负载的好方法。通过自动数据输入和数据提取,员工只需手动验证即可获得最佳结果。 在零售中使用OCR的案例不限于上述。文本识别功能可以解决零售公司的一些特定挑战。例如,该技术可以为提供多种产品的葡萄酒商提供帮助。借助基于OCR的酒标识别,用户可以对酒标拍照并获取评论、描述等产品信息,帮助他们做出正确的选择。 安全和执法中的OCR 几乎任何行业都可以利用OCR作为其安全策略的一部分。使用机器学习支持的OCR,公司有机会构建高级用户身份验证和验证系统。通常,使用提供的个人信息和自拍的手动比较文档来验证用户提供的标识符的真实性。OCR模型通过扫描身份证、护照或驾驶执照并检查其真实性,将其与数据库中的信息进行比较,从而消除了这些手动工作。 在这种情况下,OCR引擎必须首先识别文档类型。例如,如果用户选择使用驾驶执照进行身份验证,则他们上传到系统的文档必须符合该文档格式。然后 系统应分析和处理上传的用户文档以获取相关数据。 由于同一类型的文档可能具有不同的格式,具体取决于国家或州,系统必须能够从所有变体中找到并提取必要的数据。使用深度学习算法可以帮助OCR系统理解不同文本块之间的相对位置关系,并结合语义连接的文本块对来查找相关数据,例如姓名、出生日期等。 还值得一提的是,安全身份验证OCR软件应具有在解析文档时防止欺骗尝试的功能。反欺骗技术将帮助系统检测假身份证扫描和其他欺诈 尝试。 光学字符识别技术也广泛用于自动车牌识别(ANPR)。这项技术对于执行交通法规的摄像机非常有帮助。ANPR还用于收费公路的电子收费、停车场管理、公交专用道执法和交通管理 。一般来说,基于OCR辅助的系统可确保世界上大多数国家的道路安全。 例如,在美国,所有警察部门都使用某种形式的ANPR。根据加利福尼亚州审计员2020年的报告,仅洛杉矶警察局(LAPD)就已经积累了超过3.2亿次车牌扫描。在英国,自动车牌识别用于通过近8,000个摄像头记录车辆的移动,这些摄像头每天捕获数百万条记录。这些数据有助于阻止和制止犯罪,包括有组织的犯罪集团和恐怖分子。 OCR硬件 一个高质量的文本识别系统是软件和硬件协调良好的工作。OCR所需的硬件是一个特殊的扫描仪 ,或者只是手机上的一个摄像头。硬件用于拍摄纸张上的文本图像,软件通过识别/提取图像中的文本来完成其余工作。硬件扮演着软件的眼睛(受体)的角色。软件扮演着大脑的角色,它处理眼睛的信息并从感知数据中提取意义。 现代OCR解决方案可以将智能手机或PC相机变成功能齐全的文档扫描仪。大多数当前的OCR应用程序将图像上传到服务器进