研报重点内容:
本研报提出了一种基于极速学习机(Cost Extreme Learning Machine,CELM)的软件缺陷报告分类方法,来解决现有分类方法中存在的三个问题:Bug报告数据集中不同类别的样本数量不平衡、被标注样本不足以及总体样本量不足。为了解决这三个问题,报告提出了一种有监督分类方法、半监督学习方法和样本迁移方法,并在多个Bug报告数据集上进行了实验验证。
具体来说,该分类方法通过引入不同类别的样本进行有监督训练,解决了不同类别的样本数量不平衡问题。同时,利用模糊度对样本进行加权,引入半监督学习方法解决了被标注样本不足的问题。此外,为了处理总体样本量不足的问题,该方法采用样本迁移方法对训练数据和测试数据进行混合,从而在一定程度上保证了总体样本量。
该分类方法在多个Bug报告数据集上进行了实验验证,结果表明了其有效性和可行性。
结论:
基于极速学习机的软件缺陷报告分类方法是一种有效的分类方法,可以解决现有分类方法中存在的三个问题。这种方法在多个数据集上进行了实验验证,证明了其可行性和有效性和比肩传统分类方法。