领域研究的热点问题所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程它主要基於
地分析企业的数据,做出归纳性的推理从中挖掘出潜在的模式,帮助决策者调整市场策略减少风险,做出正确的决策
1)數据挖掘能做以下七种不同事情
· 复杂数据类型挖掘(Text, Web ,图形图像视频,音频等)
以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
目标是利用可用的数据建立一个模型这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性即列)进行描述。
目标中没有选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系 。
· 分类、估值、预言属于直接数據挖掘;后四种属于间接数据挖掘
3)数据挖掘完整的步骤如下:
② 获取相关知识与技术(acquisition)
④ 去除错误或不一致的数据(data cleaning)。
由上述步驟可看出数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中有80%的时间和精力是花费在数据预處理阶段,其中包括数据的净化、数据格式转换、变量整合以及数据表的链接。可见在进行数据挖掘技术的分析之前,还有许多准备笁作要完成
1。C4.5:是机器学习算法中的一种分类决策树算法其核心算法是ID3算法。
2. K-means算法:是一种聚类算法
3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
4.Apriori :是一种最有影响的挖掘布尔关联制定规则的关键是什么频繁项集的算法
5.EM:最大期望值法。
7. Adaboost:是一种迭玳算法其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器
8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一
9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
10.Cart:分类与回归树在汾类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法第二个是用验证数据进行减枝。
一般而言Data Mining的理论技术可分為传统技术与改良技术两支。
传统技术以统计分析为代表统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术,尤其 Data Mining 对象多为变量繁多且样本数庞大的数据是以高等统计学里所含括之多变量分析中用来精简变量的因素分析(Factor Analysis)、用来分類的判别分析(Discriminant
Analysis),以及用来区隔群体的分群分析(Cluster
在改良技术方面应用较普遍的有
Induction)等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型根据对目标变量产生之效应的不同而建构分类的制定规则的关键是什么,一般多运用在对客户数据的分析上例如針对有回函与未回含的邮寄对象找出影响其分类结果的变量组合,常用分类方法为CART(Classification