书合文秘网 - 设为首页 - 加入收藏
当前位置 首页 > 范文大全 > 学习强国 >

机器学习算法研究综述

作者: 浏览数: 关键词: 算法 综述 机器 研究 学习


打开文本图片集

摘要:分类问题及其算法一直是机器学习的一个重要领域,逐渐应用在各个领域内。文章介绍了目前机器学习算法在分类方面的研究成果,总结了各种分类算法,并且对其核心思想、优缺点和实际应用进行比较。分析总结了学习分类算法研究的发展趋势和面临的挑战。

关键词:单一分类算法;集成分类算法;机器学习;分类算法;

引言

人类生产生活中存在着各种各样的分类问题,对分类的需求不仅仅是一种回归。对判别分析、逻辑回归等分类方法进行了深入研究。然而,传统的分类方法精度有限,范围狭窄,随着互联网和大数据的发展,数据的丰度和覆盖范围远远超出了人类可观察和归纳的范围。因此,对国内机器学习分类算法现状的整理与评价,具有重要的学术研究和实际应用价值。

一、机器学习和分类概述

机器学习一般可以分为无监督、半监督和有监督学习问题,其目的都是为了分类。而分类的最终目标是达到最高的精度。实现一般可以分成两个步骤(如图1)。一,学习,即归纳和分析训练集,寻找合适的分类器,建立分类模型的规则;二,分类。即用已知的测试集来衡量分类规则的准确度,如果准确度可以接受,用训练好的模型来预测未知的待测集。

二、单一分类算法

2.1 ANN算法

人工神经网络(Artificial Neural Network),是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。

2.2 Naive Bayesian算法

Maron和Kuhn(1960)在贝叶斯理论的概率原理的基础上提出了NB算法,根据已知的概率,对要分类的样本,在验证公式的基础上计算出某一类样本的跟踪概率,再根据该类样本的跟踪概率计算出待分类样本的跟踪概率。

2.3 K近邻算法

Cover和Hart提出了一种基于距离测量的KNN分类算法,核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

2.4 决策树算法

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。

2.5 SVM算法

支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

近年来,由于神经网络网络优异的算法性能,其逐渐成为学术界研究的热点,它在图像分析、语言识别、目标识别、性别识别、人脸识别等领域都有着广泛的应用,自动驾驶等领域应用广泛。

三、聚合分类算法

尽管分类方法发展迅速,但仍存在一些无法有效解决的问题。数据量大、质量参差不齐已成为大数据分析的难点,综合学习算法被提出,其采用一定的方法或规则对一些基本分类的预测进行综合,有效地克服学习中的困难;一般分为基分类器相互独立的引导聚集算法和基分类器相关联的提升算法。

3.1 引导聚集算法

布莱曼提出该算法,原则上,最初的样本集是通过Bootstrap Sampling方式获得的,然后使用这些采样集训练几个基本分类器。最后,最终聚集分类器由基本分类器的组合策略确定。在分类中,最终类别通常根据协调方法确定,最终类别通过投票来进行决定。

3.2 提升算法

Schapire和Freund提出两种提升算法,基本分类器通过加权方法反复训练,然后用线性加权的方法组合基本分类器。由于实际操作过程中,弱分类算法的正确率下限无法准确预知。Freund在此基础上进一步提出了AdaBoost算法。

3.3區别

两者都是提高弱分类算法精度的方法,但也存在一些差异。引导聚集算法主要用于人脸识别和个人信用评估。作为一种优秀的机器学习非线性工具模型,随机森林算法被广泛应用于模式识别、图像分类等领域;AdaBoost算法主要用于人脸、车辆、行人、目标、人眼识别等二分或多分问题上。

四、机器学习分类算法的研究与展望

机器学习的分类算法可以解决许多复杂的分类问题,但鉴于数据的复杂性和多样性,从学习目标和分类效率的角度来看,机器学习分类算法将面临新的问题。

(1)小样本高维数据。不同应用领域的数据一般都具有高维的特点,随着数据中冗余和无关信息的增加,算法性能降低,计算复杂度增加。(2)高维不平衡。在算法中,通常假设数据集是平衡的,但实际工作中不平衡和高维的特征经常一起出现在数据中。(3)多分类的高维问题,除了一般的二分类问题外,在实际应用中还存在许多多分类问题,特别是高维数据的多分类问题,这就给现有的机器学习算法带来不小挑战。(4)特征问题,目前数据实例由多个特征表示,相应的分类模型依赖于关联的多个特征。排除无关的冗余特征,可以提高模型的精度和运行效率。(5)属性值不足。属性值的缺乏往往导致分类模型的预测精度下降,这是普遍存在的数据质量问题,目前较难解决。

机器学习是人工智能的一个重要组成部分,分类是其最重要的任务之一,通过对各种机器学习分类算法性质和应用的说明,可以发现没有一种算法可以解决所有的问题。因此在实际应用中,有必要根据实际情况对相应的分类算法和数据处理方法进行比较和选择,以便更好地进行分类。

参考文献:

[1]Etherm A. 机器学习导论[M].范明,昝红英,牛常勇译. 北京:机械工业出版社,2009

[2]张润,王永滨. 机器学习及其算法和发展研究[J]. 中国传媒大学学报(自然科学版), 2016, 23(2).

[3]沈学华,周志华,吴建鑫等. Boosting 和 Bagging 综述[J]. 计算机工程与应用, 2000, (12)

相关文章:

Top