财税数据风控白皮书 Contents 目录 前言 行业挑战 财税数据风控四大难点 1-1 1-2 1-3 1-4 难点一:税局资源整合连接难 打破“信息孤岛”连接并优化税局资源 难点二:银税数据处理研发成本高降低开发投入提升数据处理能力 难点三:排期接入各地区税局时间过长逐一排期接入税局过程的挑战与策略 难点四:税票数据解读能力不足深度洞悉数据提升数据解读能力 数据能力 财税数据解读的挑战与应对方法 选择标准 采购第三方税票数据,服务商能力选择 2-1 解析数据来源来源多样性的挑战与解决策略 4-1 数据稳定性税票数据需求的关键因素 2-2 解读数据产生税票数据产生的背景和关系 4-2 数据合规性税票数据服务的关键要素 2-3 清晰客户画像 4-3 数据的质量 构建全面指标体系 税票数据服务的核心指标 2-4 分析客群风险小微企业不同客群的风险 4-4 数据的解读税票数据服务的价值洞察 2-5 冷启动模型策略联合建模 4-5 数据覆盖范围税票数据服务全覆盖服务 4-6 售后服务 案例分享 财税数据风控实战 未来展望 3-1案例一 某商业银行×泾渭云财税数据的全面接轨 3-2案例二 某大型制造业公司×泾渭云财税数据处理上的深度合作 3-3案例三 某大型金融机构×泾渭云 财税数据安全和合规性上的实践案例 前言 “ 近年来,以税务贷、发票贷为代表的数据化信贷产品兴起,但相关数据的研究相对薄弱。在数字经济高速发展的今天,全面丰富、提升我们的小微数字化信贷理论与实战能力势在必行也正逢其时。 新华信用联合金蝶征信共同发布的《财税数据风控白皮书》,旨在深入解析财税数据产生的背景、来源、关系,构建财税风控的指标体系,提出解决方案,并通过实战案例分享,帮助企业更好地理解和应对现实挑战。这些实战案例展示了在财税数据风控领域中的成功实践,为未来大数据风控行业的发展贡献了有生力量。 新华信用是新华社中国经济信息社建设运营的国家级信用信息服务平台,是新华社履行国务院社会信用体系建设部际联席会议成员单位职责的重要举措。新华信用发挥新华社品牌、公信力、渠道、资源等优势,通过“产品+服务+平台”的模式打造专业信用平台,在企业信用、行业信用、城市信用等领域提供智库、咨询、查询、发布等多项服务。 金蝶征信是经人民银行批准备案的企业征信服务机构。旗下推出的“泾渭云”企业大数据征信云服务,使用大数据技术构建全流程的小微企业信贷模型,输出企业信用报告,帮助金融机构提高风控审核效率并降低潜在信用风险。“泾渭云”凭借先进的技术和优质的服务,分别获得深圳市及广东省“金融创新奖”。 新华信用联合金蝶征信对全国百家金融机构的调研显示,目前财税数据应用面临着诸多难点: 获取税务局数据授权难。大量银行难以顺利对接税务局数据,地方性税务局往往优先大型国有银行或本地城商行,其他银行面临排期接入时间长的问题;同时,很多地区税务部门仍不具备数据开放能力,税务部门信息化建设较落后。 各地税务局数据系统差异大。税务贷如果想要跨地区,需要针对不同地区的税务局进行定制化接口开发,开发成本非常高。 税务局数据不标准。在跨地区业务中,各省市税务局的数据格式、统计口径不尽相同,统一口径不一的税务报表费时费力。 数据解读能力不足。如何评估数据准确性、构建指标体系和风险特征,将税务信息精确解读、并纳入模型,将直接关系到风控工作的有效性。 2022年7月,中共中央办公厅、国务院办公厅印发了《关于推进社会信用体系建设高质量发展促进形成新发展格局的意见》。文件强调了要创新信用融资服务和产品, 发展普惠金融,扩大信用贷款规模,解决中小微企业和个体工商户融资难题。加强公共信用信息同金融信息共享整合,推广基于信息共享和大数据开发利用的“信易贷”模式,深化“银税互动”、“银商合作”机制建设。 我们认为,财税数据的挖掘和利用是推动上述目标的重要环节。财税数据作为企业经营、财务、税务等多方面的重要信息载体,应该成为金融科技融资领域的重要研究对象。 尤其对于小微企业来说,传统的财务报表因数据的滞后性、不可得性以及统计口径的偏差,无法全面反映其真实经营状况。但企业每天进行交易中的财税数据,能够更加客观精准地记录、反映企业的信用水平。如何合规、安全、完整、准确地获取、处理、分析这些极具价值的财税数据,是许多企业面临的挑战。同时,深入了解财税数据,掌握其背后的产生机制、来源渠道、相关关系,是我们现阶段逐步完善财税风控体系的重点。 希望通过这份白皮书,能够助力行业对财税数据风控知识、技能、前沿探索有更深入的认知,更有效地驱动业务创新和企业发展。也期望这份白皮书能激发更多关于财税数据风控专业领域的讨论和研究,推动大数据风控行业的共同进步。 新华信用x金蝶征信 1 行业挑战 财税数据风控四大难点 企业征信数据三大类型 企业信贷风控的基础是丰富多维的企业数据。如图1-1所示,基于企业数据的覆盖度及与企业经营信息的相关度两个层面,企业征信数据信息大致可以归为三大类型:强数据、强相关数据及弱相关数据。其中弱相关数据以细分场景数据及企业主行为数据为主,如社交、位置、舆情、交通信息等,往往其覆盖度较低且较难标准 化。而强数据则为业务相关性最高的企业核心征信数据,能够真实全面的反映企业的规模、趋势、利润、成本、负面等信息,中大型企业以其标准的财务及业务数据为主,而小微企业因记账不规范及信息不完整,往往需依赖更为底层的发票及纳税数据。 企业 金融机构 企业规模 营收情况 信用评估 企业规模营收情况 经营趋势负面信息 贷中监测 经营趋势负面信息 小微企业征信核心数据 中大企业征信核心数据 强数据 发票纳税征信财务业务 强相关数据 工商司法水力电力流水海关社保 弱相关数据 社交通讯运输保险教育商城舆情位置 数据覆盖度 经营画像相关度 图1-1企业数据的主要类型 企业可用信贷数据三大特征 如图1-2所示,企业应用于信贷场景的数据需满足覆盖度、完整性、真实性的三大基础特性,且缺一不可。覆盖度高代表能够囊括的信贷群体更为广泛,完整性则体现在数据维度及信息周期能满足信用分析需求,权威真实的数据来源是信用信息基础。国家“税制”规范下的发票数据,正好满足了以上三大信用数据基础特性,因其应用覆盖度 极高,且内容相对统一,实现了复杂业务数据的标准化归集,具备应用于大数据信用分析的先天条件,可提炼丰富的经营及风险指标,帮助信贷机构实现客户营销及风险评估。 覆盖度 全行业及区域覆盖 国家统一税收基础数据特性,覆盖全国所有具有正常纳税及开票行为的企业。 完整性 全面洞悉企业经营 税票数据颗粒度较为细致且勾稽关系清晰,可深度挖掘企业经营趋势、交易频次、交易圈子、商品品类等多维度企业评价因子。 真实性 国家税收政策规范 企业开票及申报数据需依照国家税收政策,特别是金税四期对企业各流数据汇集,税收数据具备高权威性。 图1-2税票数据的三大基础特性 税票数据对接的四大难点 税票数据因覆盖企业数量众多、信息维度丰富、数据准确性高、更新频率稳定、易于标准化且风控效果相关性强等特性,是当前可接入的应用价值最高的企业征信强数据之一。企业税票数据作为企业经营过程中累积的数据资产,除了广泛应用于小微企业融资外,还可以用于企业商业信用管理、抵押类贷款辅助决策等多个场景,在贷前审批自动化和贷中风险预警自动化发挥着重要的作用。 在金融机构基于小微信贷业务实际对接企业税票数据的过程中,仍然存在四大难点: 1.税务局资源整合连接难。 2.银税数据处理研发成本高。 3.排期接入各地区税局时间过长、数据报送规范繁琐。 4.税票数据解读能力不足。 所有的机构都认为各地税局对接复杂 有95%的机构认为排期接入税局的等待时间过长 选择比例100% 100% 95% 65% 75% 25% 40% 50% 25% 0% 资源不匹配 自研成本过高逐一排期接入 日常运维成本高贷后数据上报繁琐 (各地税局的对接复杂性)全国税局时间过长 图1-3连接税局困难点 1-1 难点一:税局资源整合连接难 打破“信息孤岛”连接并优化税局资源 企业的税务数据,通常源自各省市的地方性税务局,其详尽和全面的信息为金融机构提供了丰富的数据源。在实际的银税互动过程中,第一个难题便是税务局资源的整合和连接。 中国各地的税务系统繁杂多样,涵盖了征科、纳服、信息等不同的部门的多种系统,包括金三系统、底账库系统、电子数据系统、进出口系统等,银行必须要能够接入和对接各个系统,才能真正实现对数据的全面获取和利用。 为打破“信息孤岛”,一些地方税务局自建平台与银行合作,为当地小微企业提供信贷服务。但这种模式下,银行与税务局直连的开发边际成本较高,局限于某地区某几家银行,信贷规模有限,业务难以拓展到全国。 发票日期 单据明细序号企业税号 外部关联id购方税号销方税号 发票明细序号商品编码 商品名称规格型号计量单位商品数量 为了连接并优化税局资源,一部分金融科技企业开始充当起这一桥梁。以金蝶信科为代表的金融科技公司,通过建立银税互动对接,在企业授权的前提下为银行提供专业化服务。近年来,以解决小微融资难为目标,通过数据接入、数据清洗、标签加工等大数据分析技术,以财税数据为核心,结合工商、司法等数据全面 分析企业经营情况,逐渐形成小微企业信用评价体系,助力银行信贷服务,帮助小微企业获得纯信用无抵押的数据信贷。 目前,常见的服务商还包括中软、神码、税友、航信、中润、微众信科等。 在业务开展过程中,金融科技公司的规模有助于信贷产品实现快速覆盖、快速起量,覆盖更多长尾客群。因此,银行也倾向于选择金蝶信科及上述服务商——企业客户丰富、具备财税背景、资源覆盖全国的头部金融科技企业进行合作。 数据源 生产成本 上游稳定性 分数+标签 销售收入 下游稳定性 风险评分 发票数据 进项|销项 数据挖掘 模型构建 8大维度信贷额度 1000+特征 产品集中度 成长性 贷中规则 采购集中度 开票行为 1-2 难点二:银税数据处理研发成本高 降低开发投入提升数据处理能力 数百万 研发成本高 2-3年 项目周期长 在银税互动过程中,银行面临的研发挑战包括: 了解和面对复杂的税务数据系统 研究解析税务数据底层表单字段兼容适配各地税务局的认证授权 业务流程 处理接入数据,进行持续的系统运维,确保全国范围内的业务系统稳定运行 自主研发接入税务数据接口,不仅需要大量的人力物力投入,还需应对税务局系统升级维护,数据质量运维等多方面的持续挑战。 目前,业界已有一些成熟的解决方案,可节约与税务部门对接开发成本,省去繁琐的税务数据的接入、清洗工作,减少巨大的人力成本和工程量。 优化策略一: 选择第三方银税系统服务商 银行可以根据国家税务总局113号文*意见,选择由第三方持牌的银税系统服务商进行技术研发和数据处理,将大部分研发工作交给专业服务商,由他们负责解决复杂的税务数据问题,这将极大降低银行自身的技术研发投入,同时提高数据处理效率和质量。 优化策略二: 采用RPA等先进技术手段 银行可以采用RPA方式(机器人流程自动化),通过持牌企业征信机构采集企业主动授权提供的税票数据。这种方法既可以确保数据的准确性,又可以有效提升数据采集和处理的效率。通过这种方式,银行可以在保证数据质量的同时,节省人力资源用于更加需要的地方,提高整体运营效率。 *国家税务总局中国银行保险监督管理委员会关于深化和规范“银税互动”工作的通知发文字号:税总发〔2019〕113号 1-3 难点三:排期接入各地区税局时间过长 逐一排期接入税局过程的挑战与策略 同时,银行需要根据自身业务需求,要在产品设计、流程设计、系统设计等环节进行定制化调整,以保证与税务局的数据能够顺利对接并得到有效利用。面对全国范围内众多税务局,银行需要付出极高的时间成本。在技术资源有限的情况下,多地区的逐一接入将耗费更长时间,增加了银税互动的难度。 面对遍布全国的税务局系统,每个地方税务局在