数据挖掘十大算法 and 算法概述-白红宇

数据挖掘十大算法 and 算法概述

阅读量：4067 次

发布时间：2019-05-25

本文共 1640 字，大约阅读时间需要 5 分钟。

“数据挖掘十大算法”是IEEE数据挖掘国际会议（ICDM）上的一篇论文，2007年12月在Jonural of Knowledge and Information Systems杂志上发表。根据知识发现和数据挖掘国际会议（KDD）获奖者的问卷调查结果，论文统计除了排名前十的数据挖掘算法。

C4.5决策树

K-均值（K-mean）

支持向量机（SVM）

Apriori

最大期望算法（EM）

PageRank算法

AdaBoost算法

k-近邻算法（kNN）

朴素贝叶斯算法（NB）

分类回归树（CART）

生成方法

模型表示了给定输入X产生输出Y的生成关系。先由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测模型，即生成模型：

P (Y | X) = P ( X , Y ) P ( X )

$P(Y|X) = \frac{P(X,Y)}{P(X)}$

朴素贝叶斯

隐马尔可夫模型

生成方法可以还原出联合联合概率分布P(X,Y)，判别模型则不能；生成方法的学习收敛速度更快，当样本容量增加时，可以更快的收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

判别方法

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。

k近邻

神经网络

决策树

逻辑回归

最大熵模型

支持向量机

提升方法

条件随机场

判别方法直接学习的时条件概率P(Y|X)或决策函数f(X)，直接面对预测，往往学习的准确率更高；由于直接学习P(Y|X)或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

参数学习方法

线性回归

非参数学习方法

最近邻，K近邻

监督学习（supervised learning）

分类方法

模型结构

搜索过程

损失函数

优化算法

损失函数的选择

一种可能的情况是：一种错误比另一种的代价更大。

例如：

医疗领域：
- 假阴性（检测为阴性，实际是假的）：可能导致患有严重疾病的患者无法及时得到治疗。
- 假阳性（检测为阳性，实际是没有真正患病）：导致患者进行不必要的诊断和治疗。

垃圾邮件过滤：误删一个正常邮件对用户来说十分危险，让一个垃圾邮件通过，只会带来一点小麻烦。

回归方法

标注方法

隐马尔可夫模型

条件随机场

无监督学习（unsupervised learning）

通过对无标记样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

聚类：discover groups of similar examples within the data

密度估计：determine the distribution of data within the input space

降维：project the data from a high-dimensional space down to two or three dimensions for the purpose of visualization、

异常检测：anomaly detection / outlier detection. 常借助聚类或距离计算进行，如将远离所有簇中心的样本作为异常点，或将密度极低处的样本作为异常点。

生成式模型

例如： 朴素贝叶斯分类器

建立一个模型预测P(input, lable)，即(input, label)对的联合概率。

条件式分类模型

例如 最大熵分类器

建立模型预测P(label|input)——一个给定输入值的标签概率。

描述性模型

捕获数据中的模式，但它们并不提供任何有关数据包含这些模式的原因。（大多数从语料库自动构建的模型是描述性模型。）

解释性模型

试图捕捉造成语言模式的属性和关系。

总之，描述性模型提供数据内相关性的信息，而解释性模型是进一步假设因果关系。

《Machine Learning in Action》

《统计学习方法》

《机器学习》

转载地址：http://vnoji.baihongyu.com/

你可能感兴趣的文章

多线程使用随机函数需要注意的一点

查看>>

getpeername,getsockname

查看>>

Visual Studio 2010：C++0x新特性

No.182 - LeetCode1325 - C指针的魅力

查看>>

Encoding Schemes

查看>>

带WiringPi库的交叉笔译如何处理二之软链接概念

移动端自动化测试-Mac-IOS-Appium环境搭建

查看>>

Selenium之前世今生

查看>>

Selenium-WebDriverApi接口详解

查看>>