Find the Underlying Structure of Big Data by Machine Learning with Spark | QQ群: 452154809

大数据计算平台搭建方法论

数据平台 Bin 129℃ 0评论

CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。数据库知识发现
57p5fsvkg5sv

1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来。

2: data understanding: 数据的理解以及收集,对可用的数据进行评估。

3: data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。

4: modeling: 即应用数据挖掘工具建立模型。

5: evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。

6: deployment: 部署(方案实施),即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)。

商业理解(Business understanding):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。

数据理解(Data understanding):数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。

数据准备(Date preparation):在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。 ETL

建模(Modeling):建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。

模型评估(Evaluation):并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。

结果部署(Deployment):这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

转载请注明:单向街的夏天 » 大数据计算平台搭建方法论

喜欢 (1)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址