绪论
本文旨在构建基于财务数据造假的融合预测模型,以帮助投资者识别财务造假公司,保障投资利益。研究背景是我国证券市场财务造假问题持续存在,对投资者信心构成威胁。研究意义在于为监管部门提供有效监控手段,并为投资者提供决策支持。
相关理论
介绍了上市公司财务数据造假的概念、动机以及相关算法,包括XGBoost、CatBoost、LightGBM、Logistic Regressor和GBDT,并阐述了Stacking框架模型的基本原理。
数据预处理及因子筛选
对数据进行预处理,包括缺失值分析和处理、异常值处理,并采用Filter过滤法和递归特征消除法进行因子筛选。
基于机器学习算法的问题一研究
针对制造业、信息传输、软件和信息技术服务业、批发和零售业、金融业、房地产业和农、林、牧、渔业7个行业,分别采用GBDT-RFE、XGBoost-RFE、CatBoost-RFE、LightGBM-RFE和LogisticRegressor-RFE五种机器学习方法进行数据指标选取,并通过投票打分机制筛选出最终重要性排序前20的数据指标。研究发现,稀释每股收益和未分配利润在行业中有较强的泛化识别能力。
基于融合模型的问题二和问题三研究
构建基于Stacking融合模型的财务数据造假预测模型,并对各行业上市公司第6年财务数据造假情况进行预测。研究发现,Stacking融合模型能够有效过滤掉最不可能造假的数据样本,提高预测准确率和召回率。
研究结论
- 稀释每股收益和未分配利润是识别财务数据造假的重要指标。
- Stacking融合模型能够有效预测上市公司财务数据造假行为。
- 各行业财务数据造假比率存在差异,需根据行业特点进行分析。
关键数据
- 制造业上市公司第6年财务数据造假率为1.4%。
- 信息传输、软件和信息技术服务业第6年财务数据造假率为2.35%。
- 批发和零售业第6年财务数据造假率为4.12%。
- 金融业第6年财务数据造假率为2.48%。
- 房地产业第6年财务数据造假率为5.83%。
- 农、林、牧、渔业第6年财务数据造假率为11.90%。
- 建筑、采矿、教育业等9个行业第6年财务数据造假率为1.29%。