博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘十大算法 and 算法概述
阅读量:4067 次
发布时间:2019-05-25

本文共 1640 字,大约阅读时间需要 5 分钟。

“数据挖掘十大算法”是IEEE数据挖掘国际会议(ICDM)上的一篇论文,2007年12月在Jonural of Knowledge and Information Systems杂志上发表。根据知识发现和数据挖掘国际会议(KDD)获奖者的问卷调查结果,论文统计除了排名前十的数据挖掘算法。

  • C4.5决策树
  • K-均值(K-mean)
  • 支持向量机(SVM)
  • Apriori
  • 最大期望算法(EM)
  • PageRank算法
  • AdaBoost算法
  • k-近邻算法(kNN)
  • 朴素贝叶斯算法(NB)
  • 分类回归树(CART)
生成方法

模型表示了给定输入X产生输出Y的生成关系。先由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型:

P(Y|X)=P(X,Y)P(X) P ( Y | X ) = P ( X , Y ) P ( X )

  • 朴素贝叶斯
  • 隐马尔可夫模型

生成方法可以还原出联合联合概率分布P(X,Y),判别模型则不能;生成方法的学习收敛速度更快,当样本容量增加时,可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别方法

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。

  • k近邻
  • 神经网络
  • 决策树
  • 逻辑回归
  • 最大熵模型
  • 支持向量机
  • 提升方法
  • 条件随机场

判别方法直接学习的时条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

参数学习方法
  • 线性回归
非参数学习方法
  • 最近邻,K近邻

监督学习(supervised learning)

分类方法
  • 模型结构
  • 搜索过程
  • 损失函数
  • 优化算法

损失函数的选择

一种可能的情况是:一种错误比另一种的代价更大

例如

  • 医疗领域:
    • 假阴性(检测为阴性,实际是假的):可能导致患有严重疾病的患者无法及时得到治疗。
    • 假阳性(检测为阳性,实际是没有真正患病):导致患者进行不必要的诊断和治疗。
  • 垃圾邮件过滤:误删一个正常邮件对用户来说十分危险,让一个垃圾邮件通过,只会带来一点小麻烦。
回归方法
标注方法
  • 隐马尔可夫模型
  • 条件随机场

无监督学习(unsupervised learning)

通过对无标记样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

  • 聚类:discover groups of similar examples within the data
  • 密度估计:determine the distribution of data within the input space
  • 降维:project the data from a high-dimensional space down to two or three dimensions for the purpose of visualization、
  • 异常检测:anomaly detection / outlier detection. 常借助聚类或距离计算进行,如将远离所有簇中心的样本作为异常点,或将密度极低处的样本作为异常点。

生成式模型

例如: 朴素贝叶斯分类器

建立一个模型预测P(input, lable),即(input, label)对的联合概率。

条件式分类模型

例如 最大熵分类器

建立模型预测P(label|input)——一个给定输入值的标签概率。

描述性模型

捕获数据中的模式,但它们并不提供任何有关数据包含这些模式的原因。(大多数从语料库自动构建的模型是描述性模型。)

解释性模型

试图捕捉造成语言模式的属性和关系。

总之,描述性模型提供数据内相关性的信息,而解释性模型是进一步假设因果关系。


《Machine Learning in Action》

《统计学习方法》

《机器学习》

转载地址:http://vnoji.baihongyu.com/

你可能感兴趣的文章
多线程使用随机函数需要注意的一点
查看>>
getpeername,getsockname
查看>>
Visual Studio 2010:C++0x新特性
查看>>
所谓的进步和提升,就是完成认知升级
查看>>
如何用好碎片化时间,让思维更有效率?
查看>>
No.182 - LeetCode1325 - C指针的魅力
查看>>
Encoding Schemes
查看>>
带WiringPi库的交叉笔译如何处理二之软链接概念
查看>>
Java8 HashMap集合解析
查看>>
自定义 select 下拉框 多选插件
查看>>
gdb 调试core dump
查看>>
gdb debug tips
查看>>
linux和windows内存布局验证
查看>>
本地服务方式搭建etcd集群
查看>>
安装k8s Master高可用集群
查看>>
忽略图片透明区域的事件(Flex)
查看>>
Xpath使用方法
查看>>
移动端自动化测试-Mac-IOS-Appium环境搭建
查看>>
Selenium之前世今生
查看>>
Selenium-WebDriverApi接口详解
查看>>