数据源及财务数据采集研究
一、数据源分类
-
按分布范围分类
- 企业内部数据源:包括业务系统、财务管理系统、人力资源管理系统、日志采集系统、办公软件和传感器等。这些数据源通过数据库、系统日志和API进行采集,但存在信息孤岛问题,建议建立数据仓库和数据中台。
- 企业外部数据源:包括政府、高校、机构、行业协会的开放型数据库以及网页与应用程序等。这些数据源通常分布广泛且分散,企业通过网络爬虫和API进行筛选和采集。
-
按采集路径分类
- 物理世界中的数据源:以物理实体为载体,通过物理设备进行数据采集,如条形码、二维码、传感器、工控设备等。常见的采集技术包括OCR、ASR、RFID等。
- 数字世界中的数据源:存在于各种软件、系统或程序中,通过系统日志、数据库、网络爬虫等方式进行采集。
二、财务数据采集范围及数据源扩展
-
传统财务数据采集
- 主要围绕费用报销、采购付款、订单收款等九大业务流程,关注“票账表钱税”背后的数据,属于结果数据。
-
扩展后的财务数据采集
- 包括交易数据、过程数据、行为数据和环境数据。
- 交易数据:企业在与外部利益相关者进行交易时产生的数据,如交付参数、客户评价、交易频率等。
- 过程数据:企业与外部利益相关者在交互过程中产生的数据,如项目进度、供应商工商信息等。
- 行为数据:企业经营过程中通过观测工具获取的行为记录数据,如用户行为日志、物流追踪等。
- 环境数据:企业所处行业市场情况、国家宏观经济形势及全球经济变化等外部数据。
三、财务数据源的层次划分
-
第一层:财务数据载体及其结构化
- 外部载体:发票、行程单、火车票、银行回执单等。
- 内部载体:记账凭证、报账单、采购申请单、验收单等。
- 数据载体类型:原始凭证、单据、凭证、账表等。
-
第二层:对内部信息系统的全面采集
- 实现销售、采购、人力资源等各类信息系统的广泛连通,采集结构化数据。
-
第三层:对其他外部数据源的全面采集
- 采集网页、应用程序、开放型数据库等外部数据,如客户画像、竞争对手数据、政策数据等。
四、财务数据采集方法与工具
-
感知设备数据采集
- 常见技术:OCR、信息传感器、射频识别技术等。
- 应用:将纸质文档转化为结构化数据,支持智能识别各类发票和票据。
-
系统中结构化数据采集
- 通过数据库和系统日志采集结构化数据,支持多系统数据整合。
-
日志文件数据采集
- 从系统日志和服务器日志中采集数据,支持系统运行监控和用户行为分析。
-
非结构化数据采集
- 使用NLP技术,如合同智能审核,实现非结构化文档的自动采集和语义理解。
-
其他外部数据采集
- 通过网络爬虫和API采集互联网网页、开放型数据库和外部开放型平台的数据。
五、财务数据采集的未来趋势
-
无感触发
- 利用云计算、物联网等技术,支持数据“发生即采集”。
-
全量感知
- 针对具有潜在价值的数据进行快速反应,提高资源利用率。
-
实时汇聚
通过上述研究,财务部门能够更好地采集和利用数据,推动财务向管理职能转变,为企业经营与战略决策提供支持。