基于机器学习的软件缺陷预测研究
作者:
作者单位:

1.广汽埃安新能源汽车股份有限公司研发中心,广州 511400;2.星河智联汽车科技有限公司,广州 510335;3.工业和信息化部电子第五研究所,广州 510463;4.广州城市理工学院,机械工程学院与机器人学院,广州 510800;5.广州城市理工学院,工程研究院,广州 510800;6.华南理工大学 机械与汽车工程学院,广州 510641

作者简介:

喻皓(1983—)男,高级工程师,主要从事电机设计方向研究,(E-mail)yuhao@gacne.com.cn。

通讯作者:

李倩,女,高级工程师,(E-mail)lq@ceprei.biz。

基金项目:

国家自然科学基金(61602345)。


Research on software defect prediction based on machine learning
Author:
Affiliation:

1.GAC Aion New Energy Automobile Co., Ltd., Guangzhou 511400, P. R. China;2.Syncore Autotech Co., Ltd., Guangzhou 510335, P. R. China;3.The Fifth Research Institute of Electronics, Ministry of Industry and Information Technology, Guangzhou 510463, P. R. China;4.a School of Mechanical Engineering and Robotics;5.b. Institute of Engineering Research, Guangzhou City University of Technology, Guangzhou 510800, P. R. China;6.School of Mechanical & Automotive Engineering, South China University of Technology, Guangzhou 510641, P. R. China

Fund Project:

Supported by National Natural Science Foundation of China(61602345).

  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • | |
  • 文章评论
    摘要:

    在机器学习技术逐渐渗透到各个领域的背景下,软件开发流程中的软件测试非常重要,面对在软件缺陷预测过程中出现的类别不平衡和准确性问题,提出一种基于监督学习的解决方案,采用样本平衡技术,结合合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)与编辑最近邻(edited nearest neighbor,ENN)算法,对局部加权学习(local weight learning,LWL)、J48、C4.8、随机森林、贝叶斯网络(Bayes net,BN)、多层前馈神经网络(multilayer feedforward neural network,MFNN)、支持向量机(supported vector machine,SVM)以及朴素贝叶斯(naive Bayes key,NB-K)等多种算法进行测试。这些算法被应用于NASA数据库的3个不同数据集(KK1, KK3, PK2),并对其效果进行详细比较分析。研究结果显示,结合了SMOTE和ENN的随机森林模型在处理类别不平衡问题方面展现出高效且避免过拟合的优势,为解决软件缺陷预测中的类别不平衡提供了一种有效的解决方案。

    Abstract:

    With the gradual penetration of machine learning technology into various fields, software testing in the software development process is very important. Software defect prediction faces class imbalance problem and accuracy issue. This paper proposes a supervised learning-based software prediction method for solving these two core problems. The method adopts sample balancing technique, combined with synthetic minority over-sampling technique(SMOTE) and edited nearest neighbor(ENN) algorithm, to test local weight learning(LWL), J48, C4.8, random forest, Bayes net(BN), multilayer feedforward neural network(MFNN), supported vector machine(SVM), and naive Bayes key(NB-K). These algorithms are applied to three different datasets (KK1, KK3 and PK2) in the NASA database and their effects are compared and analyzed in detail. The results show that the random forest model combining SMOTE and ENN exhibits high efficiency and avoiding overfitting in dealing with class imbalance problems, which provides an effective way to solve the problem in software defect prediction.

    参考文献
    相似文献
    引证文献
引用本文

喻皓,张莹,李倩,姜立标,尚云鹏.基于机器学习的软件缺陷预测研究[J].重庆大学学报,2025,48(2):10-21.

复制
分享
文章指标
  • 点击次数:167
  • 下载次数: 57
  • HTML阅读次数: 22
  • 引用次数: 0
历史
  • 收稿日期:2024-04-20
  • 在线发布日期: 2025-03-04
文章二维码