什么是数据挖掘,或数据挖掘的过程是什么
的有关信息介绍如下:CRISP-DM (cross-industry standard process for data mining), 即为“跨行业数据挖掘标准流程”。
从实践角度讲,数据挖掘的流程基本上和CRISP-DM标准过程一致,无非是几个步骤不断的反复。
我比较喜欢对数据挖掘定义的一种描述:数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。从中也可以看出,数据挖掘的基础是了解业务或找到熟悉业务的人,然后才是利用历史知识建立知识模式从而创造新知识。
过程的边界并不明显,但是又有基本的依赖顺序。比如可行性分析需要数据评估,模型优化结果不明显又得回到数据分析阶段,数据的分析和准备都得依赖ETL。
每个步骤缺一不可,前面的步骤是后面的基础,后面的步骤依赖于前面所有步骤,根据情况可能跳回前面任何一个步骤。