表的内容 表的内容 什么是OCR和它是如何工作的呢? 第1步。检查文档类型和图像预处理步骤2。字符识别步骤3。后处理 OCR是机器学习和计算机视觉任务OCR业务案例在金融服务OCROCR医疗保健 OCR零售 OCR的安全和执法 硬件OCR 开箱即用的解决方案与自定义OCR开发商业与开源OCR解决方案 OCR技术的局限性以及如何克服它们的关键要点 随着对OCR和机器学习的兴趣日益浓厚,越来越多的企业主正在寻找应用这种杀手组合来优化其业务流程的方法,如果您是其中之一,那么本文适合您。 让我们进一步了解什么是OCR,机器学习驱动的OCR与原始技术有何不同,以及如何在商业中使用它。 什么是OCR和它是如何工作的呢? 光学字符识别(OCR),也称为文本识别技术,可将包含书面文本的任何类型的图像转换为机器可读的文本数据。OCR允许您快速自动地数字化文档,而无需手动输入数据。这就是OCR通常用于业务流程优化和自动化的原因。OCR的输出进一步用于电子文档编辑和紧凑型数据存储,也构成了认知计算、机器翻译和文本转语音技术的基础。 根据它们解决的任务,有不同类型的OCR: ●智能单词识别(IWR)用于识别不受约束的手写单词,而不是识别单个字符。 ●智能字符识别(ICR)是一种更高级的OCR形式,基于更新算法以收集有关手印字符变体的更多数据。 ●光学单词识别(OWR)逐字扫描打字文本。 ●光学标记识别(OMR)用于识别人们在调查、测试等中标记的信息。 让我们了解一下OCR的工作原理。传统光学字符识别系统的功能包括三个阶段:图像预处理、字符识别、后处理。 第1步。检查文档类型和图像预处理 文本识别的主要挑战是每个文档模板都有自己的一组实体、值和文档中实体的位置。为了使 OCR软件准确工作,它必须能够识别不同类型的文档并基于此运行正确的预定义管道。例如 ,PDF文档可能包含也可能不包含文本图层。如果PDF不包含文本图层,我们必须以与它不同的方式处理它。 选择正确的管道后,图像进入预处理步骤。 这是一个影响结果的准备步骤。图像预处理有助于消除图像噪声并增加背景和文本之间的对比度,这将有助于提高文本识别能力。在此步骤中,OCR程序将文档转换为黑白版本,然后分析是否存在明暗区域。浅色区域被标识为背景,而暗区域被标识为要处理的字符。 步骤2。字符识别 通过使用特征检测和模式识别算法,可以检测单个字符。然后,一组字符被组合成单词和句子。使用模式识别或特征检测算法识别字符。 ●模式识别是一种基于查找嵌入在系统中以各种字体和格式的文本文本样本之间的匹配项的方法。此方法最适合打字稿,当遇到系统中未包含的新字体时,此方法效果不佳 。 ●特征检测算法通过应用有关角色各个特征的规则来识别新字符。此类要素可能包括比较符号中的倾斜线、相交线或曲线的数量。 大多数情况下,具有特征检测功能的OCR程序使用基于机器学习或神经网络的分类器来处理字符。分类器用于将图像特征与系统中存储的示例进行比较,并选择最接近的匹配项。特征检测算法适用于异常字体或 低质量的图像,字体是扭曲的。 步骤3。后处理 一旦识别出符号,它就会被转换为可供计算机系统用于进一步处理的代码。我们应该提到,任何OCR和OCR相关技术/算法的输出都有很多噪声和误报。这使得直接使用OCR的输出变得困难,因此我们必须: ●过滤掉噪音输出和假阳性 ●将识别的实体与其提取的含义相结合 ●检查可能的错误并防止输出给用户(如果有) 基于统计数据,系统可以检测一些典型的OCR错误,例如与字符和单词相似性相关的错误。因此,此时 阶段,系统纠正缺陷以提高OCR输出的质量。 OCR是一项机器学习和计算机视觉任务 光学字符识别是计算机视觉的主要任务之一。Сomputer视觉允许系统查看和解释现实世界的物体,并识别将它们与复杂背景分开的文本。OCR的早期版本必须使用每个字符的图像进行训练,并且一次只能使用一种字体。现代机器学习算法使文本 识别过程更先进,并为大多数字体提供更高级别的识别准确性,无论输入数据格式如何。 例如,收据扫描、扫描打印文本并将其进一步转换为合成语音、交通标志识别、车牌识别等。 使用现代机器学习算法可以显着改进技术,并将其用例扩展到更复杂的用例。例如,具有深度学习的OCR不仅允许图像分类,还允许图像分析和从不同对象(包括数百种手写字体或语言)中提取更复杂的数据。 OCR商业案例 OCR在商业中的应用有很多场景。由于使用机器学习的文本识别比早期版本的光学字符识别具有更高的准确性,因此企业主可以创建OCR解决方案来解决更广泛的业务挑战。现代OCR系统用于安全、银行、保险、医药、通信、零售公司和其他行业。 OCR技术的用例包括检查测试答案、实时翻译、识别路牌(Google街景)、搜索照片(Dropbox )等。光学字符识别也被安全团队广泛使用。该技术有助于分析和处理驾驶执照或身份证等文件 ,以验证个人身份。对于每种情况,使用完全不同的OCR解决方案。 OCR在金融服务 金融交易涉及大量的数据输入。手动处理这些数据需要花费大量时间和精力,而财务文档的数字化和使用OCR从中提取必要的信息可以使业务流程顺利进行优化。因此,OCR技术改善了客户引导并增强了整体客户体验。 光学字符识别在银行和金融领域的应用包括: ●客户端新员工培训。无论您想进行什么金融交易,无论是开户、提取现金还是转账,您首先需要进行身份验证以证明您的身份。OCR技术提供了一个全自动的入职流程,包括扫描身份证件(例如身份证、护照或驾驶执照)、使用OCR提取必要的数据(例如姓名、出生日期、 性别、照片、签名等)并检查它。例如,OCR 引擎可以实时检查提供的签名是否与身份证件上的签名匹配。 ●扫描功能。不排除人工输入的付款细节 错误,花费的时间比预期的要长。扫描付款功能使用光学字符识别来即时捕获发票数据并自动处理。用户只需要一个智能手机相机即可执行此操作(例如,您可能需要拍摄信用卡照片)。OCR还可以在付款时充当额外的安全功能。通常,用户将持卡人数据存储在应用程序中,不希望每次都输入卡号和其他详细信息。使用OCR,您所需要的只是启用OCR功能,该功能可在几秒钟内为每个新数据提取数据 付款,然后删除它。 ●收据的认可。OCR允许从收据中自动提取数据,以进行进一步的会计、存档或文档分析 。您可以在财务助理应用程序中找到此功能,其中包含用于自动输入费用和费用类别的数据的金钱跟踪元素。Expensify就是这种应用程序的一个例子。 收据的高可变性和通常质量低是使用OCR准确识别收据的主要挑战。在这种情况下,基于规则的方法不可能有效,这就是具有深度学习的光学字符识别的用武之地 。OCR的深度学习方法允许系统从接收到的数据中学习并改进。该技术允许训练模型以识别图像中极有可能包含文本的感兴趣区域(RoI),而忽略背景等冗余数据 。 ●贷款处理。OCR和机器学习文本识别工具可以 将贷款和抵押贷款申请的处理速度加快多达70%。数据输入的自动化使审查申请和批准或拒绝申请的过程更快、更多 对公司来说具有成本效益。AI算法可以解析应用程序中所需的数据,以确定是否应该批准或拒绝 根据金融机构的规定。 OCR在金融中的用例不仅限于上述。该技术可用于处理其他财务文档,如发票、合同、账单 、财务报告等。 OCR医疗 医疗保健行业的OСR案例与数据管理密切相关。根据世界经济论坛的数据,医院平均每年产生50PB的数据。这些数据包括医疗报告、处方表、索赔、实验室测试结果和医疗记录。医疗文档的数字化和从中有效提取数据是医疗机构运作的一个关键方面。 通过应用光学字符识别技术,医院可以更快地将论文翻译成数字格式,并将其存储为可以使用关键字轻松搜索的PDF文档。电子病历解决了医院的主要问题之一,即患者医疗信息的丢失。此外,OCR允许从证书或测试结果中提取数据并发送到医院信息管理系统(HIMS)以集成到患者记录中,从而形成患者的完整病史。 制药系统也可以利用OCR。通过OCR模块,此类系统允许您扫描医疗处方并将其导入软件,以检查药房数据库中是否存在药物,甚至使用它来控制拣选机器人。 OCR技术也用于帮助有视力障碍的人。通过扫描图像上的文本,OCR系统为使用 文本转语音技术。您所要做的就是扫描文本以获得合成语音输出。例如,语音扫描仪应用使用 智能手机的相机拍摄带有文本的照片,然后读回所有文本。这是在深度学习图像字幕技术之后对视力障碍者的帮助的新水平,该技术提供自动 代的一个图像的文本描述。 OCR零售 零售商生成许多不同的文档,例如装箱单、发票、采购订单、收据、产品描述等。这些是大量的信息,但是由于处理复杂且耗时,这些信息没有得到正确使用。 将OCR与机器学习结合使用,零售商可以体验内部业务流程的快速发展,并通过充分利用现有数据来改善客户体验。例如,商家可以从采购订单分析中提取有价值的见解,以创建更有效的营销活动、促销并更好地管理定价。通过将发票和收据转换为数字格式并将其整合到会计系统中,零售公司有机会实现会计流程的自动化。 实施OCR是处理零售员工大量工作量的好方法。通过自动数据输入和数据提取,员工只需手动验证即可获得最佳结果。 在零售中使用OCR的情况不限于上述情况。文本识别功能可以解决零售公司面临的一些特定挑战。例如,该技术对提供广泛产品的葡萄酒商人很有帮助。通过基于OCR的葡萄酒标签识别,用户可以拍摄葡萄酒标签的照片并获取产品信息,例如评论,描述等,以帮助他们做出正确的选择。 OCR的安全和执法 几乎任何行业都可以利用OCR作为其安全策略的一部分。使用由机器学习提供支持的OCR,公司有机会构建高级用户身份验证和验证系统。通常,使用带有提供的个人信息和自拍照的手动比较文档来验证用户提供的标识符的真实性。OCR模型通过扫描身份证、护照或驾驶执照并检查其真实性,将它们与数据库中的信息进行比较,消除了这些手动工作。 在这种情况下,OCR引擎必须首先识别文档类型。例如,如果用户选择使用驾驶执照进行身份验证,则他们上传到系统的文档必须符合该文档格式。然后 系统应分析和处理上传的用户文档以获取相关数据。 由于相同类型的文档可能具有不同的格式,具体取决于国家/地区或州,因此系统必须能够从所有变体中查找和提取必要的数据。使用深度学习算法有助于OCR系统了解不同文本块之间的相对位置关系,并组合语义连接的文本块对以查找相关数据,例如姓名,出生日期等。 还值得一提的是,安全身份验证OCR软件应具有在解析文档时防止欺骗尝试的功能。反欺骗技术将帮助系统检测虚假ID扫描和其他欺诈行为 尝试。 光学字符识别技术也广泛用于自动车牌识别(ANPR)。这项技术对于执行交通法规的摄像机非常有帮助。ANPR还用于收费公路的电子收费、停车场管理、公交专用道执法和交通管理。一般来说,基于OCR援助的系统确保了世界上大多数国家的道路安全。 例如,在美国,所有警察部门都使用某种形式的ANPR。根据加利福尼亚州审计员2020年的报告,仅洛杉矶警察局(LAPD)就积累了超过3.2亿次车牌扫描。在英国,自动车牌识别用于记录来自近8,000个摄像头的车辆运动,这些摄像头每天捕获数百万条记录。这些数据有助于阻止和制止犯罪,包括有组织犯罪集团和恐怖分子。 硬件OCR 高质量的文本识别系统是软件和硬件协调良好的工作。OCR所需的硬件是一台特殊的扫描仪,或者只是手机上的摄像头。硬件用于在纸上拍摄文本的图像,软件通过识别/提取图像中的文本来完成其余的工作。硬件扮演着软件的眼睛(受体)的角色。软件扮演着大脑的角色,处理眼睛的信息并从感知的数据中提取意义。 现代OCR解决方案可以将智能手机或PC相机变成成熟的文档扫描仪。当前大多数OCR应用程序将图像上传到服务器进行识别,然后将识别输出返回到客户端。许多iOS和Android应用程序创建者开发了自己的智能相机界面,用于检测文档边框、校正视角和优化图像质量