360SDN.COM

R语言+数据挖掘合璧,剑指商业应用

来源:  2017-07-27 11:02:25    评论:0点击:

什么是数据挖掘?什么是机器学习?机器学习如何在商业中有效应用?

 

像人类一样,我们原本是透过观察习得经验值, 计算机的学习过程就是从数据中推导规则,机器学习说穿了, 其实就是让计算机从数据中归纳出规则。机器学习发展至今也过了好几个年头, 他不是新技术, 因为大数据和云计算的兴起,最近又火红了起来。

 

机器学习可以分为两大类,三种问题。

 

两大类分别是监督式学习与无监督式学习,听起来有点拗口,但区别就在于一个是根据有历史答案的资料进行学习。而监督式学习又可以根据预测的响应型态分为回归分析与分类问题。回归分析是用做连续型数字或二元数据的预测, 因此像是房价, 股价的预测, 都可以使用回归分析来建立预测模型。而相对于回归分析的问题即是分类问题,该问题的主要目标就是要预测类别数据, 因此当要预测的响应是类别数据(股市涨跌, 顾客是否流失)就可以用这种方法产生预测模型。无监督式学习是没有因变量的情况下使用聚类方法做分析,如客户聚类。

 

在学习数据挖掘之前你需要明了的几点:

 

  • 数据挖掘目前在中国的尚未流行开,犹如屠龙之技;

  • 据挖掘本身融合了统计学、数据库、机器学习、模式识别、知识发现等学科,并不是新的技术。

  • 数据挖掘之所以能够应用不是因为算法,算法是以前就有的。数据挖掘应用的原因是大数据和云计算。比如阿尔法狗的后台有上千台计算机同时运行神经网络算法;

  • 数据初期的准备工作,也称Data Warehousing。通常占整个数据挖掘项目工作量的70%左右。在前期你需要做大量的数据清洗和字段扩充的工作。数据挖掘和报告展现只占30%左右;

  • 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)

 

二、目前国内的数据挖掘人员工作领域大致可分为三类。

 

  • 1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告;

  • 2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析;

  • 3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

 

三、你自己的定位与学习。

 

基于以上一点的介绍,你大概可以明确你需要努力的方向。如果你不是致力于科研方向,那么你需要掌握如下的技能:

 

1.    需要理解主流机器学习算法的原理和应用。按照需要解决的问题,主要分为三大类,见下图:

 

 

2.    需要熟悉至少一门编程语言。如R,Python,SPSS Modeler,SAS,WEKA等。

 

关于软件,有三个原则:只要能达到目标的软件就是好软件;你研究的领域啥软件好用就用啥软件;不要妄想用一个软件解决所有问题。

 

3.    需要理解数据库基本原理,能够熟练操作至少一种数据库,如MySQL,OracelDB2等。

 

4.     熟悉数据挖掘常见的运用场景。如客户生命周期管理、客户画像和客户分群、客户价值预测模型构建、推荐系统设计等。这些需要依托于不同行业。下图位CRM管理运用场景示例:

 

 

5.经典图书推荐

《数据挖掘:概念与技术》、《数据挖掘导论》、《机器学习实战》、《数据库系统概论》、《R语言实战》

 

为您推荐

友情链接 |九搜汽车网 |手机ok生活信息网|ok生活信息网|ok微生活
 Powered by www.360SDN.COM   京ICP备11022651号-4 © 2012-2016 版权