本文共 1640 字,大约阅读时间需要 5 分钟。
“数据挖掘十大算法”是IEEE数据挖掘国际会议(ICDM)上的一篇论文,2007年12月在Jonural of Knowledge and Information Systems杂志上发表。根据知识发现和数据挖掘国际会议(KDD)获奖者的问卷调查结果,论文统计除了排名前十的数据挖掘算法。
模型表示了给定输入X产生输出Y的生成关系。先由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型:
生成方法可以还原出联合联合概率分布P(X,Y),判别模型则不能;生成方法的学习收敛速度更快,当样本容量增加时,可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
判别方法直接学习的时条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
损失函数的选择
一种可能的情况是:一种错误比另一种的代价更大。
例如:
通过对无标记样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
例如: 朴素贝叶斯分类器
建立一个模型预测P(input, lable),即(input, label)对的联合概率。
例如 最大熵分类器
建立模型预测P(label|input)——一个给定输入值的标签概率。
捕获数据中的模式,但它们并不提供任何有关数据包含这些模式的原因。(大多数从语料库自动构建的模型是描述性模型。)
试图捕捉造成语言模式的属性和关系。
总之,描述性模型提供数据内相关性的信息,而解释性模型是进一步假设因果关系。
《Machine Learning in Action》
《统计学习方法》
《机器学习》
转载地址:http://vnoji.baihongyu.com/