学生工作

学术风采

当前位置: 网站首页 > 学生工作 > 学术风采 > 正文

【研学微展04】徐粤婷--基于飞蛾火焰优化算法的特征选择方法研究及应用

作者: 来源: 发布时间:2019-10-10本文已被浏览

个人简介

姓名:徐粤婷

学院:计算机与人工智能学院

指导老师:陈慧灵副教授

研究感言:努力沉淀

获奖情况:优秀共产党员、研究生国家奖学金、浙江省优秀毕业生

班级:17计研 

 

● 科研成果

  1. Yueting Xu, et al. An efficient chaotic mutative moth-flame-inspired optimizer for global optimization tasks, Expert Systems With Applications. SCI二区, 2019 (排名第一)

2. Yueting Xu, et al. Enhanced Moth-flame Optimizer with Mutation Strategy for Global Optimization, Information Sciences. SCI二区, 2019(排名第一)

3. Huiling Chen, Yueting Xu, et al. A balanced whale optimization algorithm for constrained engineering design problems, Applied Mathematical Modelling.SCI一区, 2019(导师一作)

4. Yueting Xu, et al. A new hybrid machine learning approach for prediction of phenanthrene toxicity on mice, IEEE ACCESS. SCI二区, 2019(排名第一)

5. 一种基于改进飞蛾优化算法的预测模型方法,发明专利,徐粤婷、陈慧灵等,申请(已通过实审),2018.08

6. 基于飞蛾优化的特征选择方法研究及应用,2018年温州大学研究生创新基金,主持

● 研究背景

随着科技发展以及互联网的普及,海量数据为机器学习与数据挖掘研究领域带来了新的挑战。高维数据集中通常伴有大量无关特征使得分类过程被混淆且计算时间增加。如何定义有用特征、并利用相关特征提升数据质量成为了当下研究的热点。数据挖掘与模式识别领域的数据预处理方法如特征选择,通常指的是使用候选算法找到最优特征子集的过程。这一方法的主旨在于其可以找到最有用且相关的特征以提高数据处理的有效性,加速模型训练时间并简化分类器以维持或提升分类器的性能。

● 论文摘要

特征选择问题是一类NP hard问题。论文主要采用群智能算法对特征子集选择过程进行优化。飞蛾火焰优化算法(Moth-flame optimization algorithm, MFO)是由于其稳定且有效,很容易用于解决优化领域的问题。因此,飞蛾火焰优化算法在解决复杂优化问题上得到了研究人员的广泛使用。本文着重研究MFO算法改进并将其应用于解决特征选择问题。虽然飞蛾火焰优化算法具有一定的优势,但是在优化复杂实际问题时依然存在着收敛速度慢且易陷入局部最优的问题。基于此,针对特征选择搜索策略,论文共提出三种新的基于改进飞蛾火焰优化算法的特征选择方法,并将该算法与分类模型结合,应用于金融风险预测、疾病诊断等案例以进行基于改进优化算法的特征选择方法研究。

● 主要研究内容

(1)为了克服标准飞蛾火焰优化算法易陷入局部最优的问题,我们提出一种基于双策略进化飞蛾火焰优化算法(CLSGMFO)。第一种改进中,高斯变异机制首先被引入飞蛾火焰优化算法的种群更新机制以提高算法种群多样性。其次,将混沌局部搜索机制引入算法的最优火焰更新进程以提高算法跳出局部最优解的能力。随后,将CLSGMFO算法应用于核极限学习机模型(Kernal extreme learning machine, KELM)模型参数优化问题并同时完成特征选择任务,最终将该模型应用于金融风险问题以验证本文所提模型的有效性。

(2)特征选择问题被视为一类二进制优化问题。因此,在搜索空间中解被限制为0、1两位数。在论文第二种改进中,提出了一种基于交叉变异的飞蛾火焰优化算法进行特征子集的迭代寻优。在本部分中,ELM(Extreme learning machine, ELM)模型主要用于对所选特征子集进行评估以及对大鼠肝肾中毒预测问题进行预测以找到该案例中最重要的特征。

(3)最后,在前面两部分改进的工作基础上,提出了一种基于模拟退火机制的改进飞蛾火焰优化算法(ESAMFO)的特征选择方法。该方法通过改进机制增加算法在特征选择问题上的搜索能力,并通过两类不同的转化函数将搜索所得结果转化为二进制解。KNN(k-Nearest Neighbor, KNN)分类器通过所选特征长度及分类错误率对ESAMFO算法中的每个搜索个体进行评估。30个来自UCI机器学习数据库(University of California, Irvine, Repository of machine learning databases)的不同维度的数据集被用于评估所提特征选择模型的搜索能力及分类准确性。实验结果证明了论文所提模型的可行性,也表明论文所提模型在降低分类错误率及选择重要特征的任务上较为适用。