360SDN.COM

R数据挖掘需要掌握的知识

来源:  2017-08-04 09:29:40    评论:0点击:

 
R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。
 
——Google首席经济学家Hal Varian
 
 

教学大纲

第一讲:R语言精要

本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。

主要案例:

案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;

案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;

案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;

案例4:使用ggplot2画出各种复杂的图形。

 

第二讲:Logistic回归与商业大数据建模

Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。

主要案例:

案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;

案例2:利用Logistic回归帮助医生对病人选择最佳治疗方案;

案例3:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;

案例4:利用Logistic回归帮助寿险公司进行目标客户精准电话营销;

案例5:利用Logistic回归帮助商业银行完成对客户的信用评分;

案例6:利用Logistic回归帮助公司分析客户流失的原因并做好预测。

 

第三讲:关联规则和R语言实现

关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。

主要案例:

案例1:使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案(即“购物篮”分析);

案例2:泰坦尼克号乘客幸存的关联规则分析;

案例3:提高个人收入的关联分析。

 

第四讲:决策树(回归树)分析和R语言实现

决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。

主要案例:

案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;

案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。

 

第五讲:机器集成学习的Bagging和AdaBoost算法

这两种方法将许多分类器的预测结果进行汇总分析,从而达到显著提升分类效果。本讲介绍这2种算法的思想,在R语言中构造训练集和测试集进一步进行分析。

主要案例:

案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;

案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。

 

第六讲:R语言随机森林(RandomForest)算法

在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。

主要案例:

案例1:对皮肤病进行随机森林的分类和预测;

案例2:对酒的品质和种类进行分类和评价。

 

第七讲:支持向量机和R语言的实现

本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。

主要案例:

案例1:对著名的鸢尾花数据进行支持向量机的分析;

案例2:使用支持向量机识别有毒蘑菇;

案例3:使用支持向量机进行股票指数预测。

 

第八讲:神经网络和R语言的实现

神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。

主要案例:

案例1:酒的品质和种类的神经网络的分析和预测;

案例2:公司财务预警建模。

 

第九讲:交叉验证比较各个模型

对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。

 

第十讲:使用R语言结合KNN算法进行文本挖掘

文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。

主要案例:

案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)




 

第一阶段:数据挖掘前沿与R语言

1.数据挖掘前沿与课程介绍

2.数据分析的武器库

3.数据挖掘的技术与方法

4.数据挖掘方法及案例展示

5.R程序控制、函数与包

6.R数据结构与控制语句

7.R数据读取与描述性统计分析

 

第二阶段:商业智能(BI)分析系统实现

1.变量分布与统计分布方法

2.图形探索与R数据可视化

3.R绘图包

4.BI功能实现

5.使用E-Chart实现商业智能

a.案例:化妆品公司数据集

b.沿海省市GDP可视化分析

 

第三阶段:数据清洗与统计推断

1.数据整合介绍:SQL语句与数据连接

2.数据清洗:错误值、缺失值、噪声值处理

3.假设检验与单样本T检验 

4.两样本T检验 

5.方差分析(分类变量和连续变量关系检验) 

6.卡关分析(两连续变量关系检验) 

7.卡方检验(两分类变量关系检验)

 

第四阶段:客户分析与营销模型

1.相关分析

a.案例:信用卡客户消费预测

2.线性回归与线性回归诊断

3.客户画像和客户分群

4.聚类分析方法介绍

5.精准营销

6.营销组合优化

a.邮轮公司客户分群

b.人寿保险公司客户分群、客户画像和营销策略

 

 

第五阶段:风险预测与检测模型

1.基于决策树的营销响应预测

2.精准营销和营销组合优化

3.信用风险建模的来龙去脉

4.逻辑回归方法介绍

5.贝叶斯网络方法

6.神经网络介绍

6.支持向量机

7.信用违约预测模型案例

 

第六阶段:推荐系统设计与模型管理

1.级联与流行

2.幂率与长尾理论

3.推荐系统设计

4.关联规则与协同过滤

4.模型生命周期

5.工作流设计

6.数据挖掘体系建设






 

1、数据挖掘概况

1.1 什么是数据挖掘

1.2 数据挖掘常见问题

1.3 数据挖掘流程

 

2、文本挖掘

2.1 关键字提取

2.2 相关文章推荐

2.3 自动生成摘要

 

3、分类

3.1 KNN

3.2 决策树

3.3 贝叶斯

3.4 逻辑回归算法

3.5 神经网络算法

 

4、聚类

4.1 划分法

4.2 层次法

4.3 密度法

 

5、关联

5.1 关联规则

5.2 协同推荐

 

6、时间序列

 

为您推荐

友情链接 |九搜汽车网 |手机ok生活信息网|ok生活信息网|ok微生活
 Powered by www.360SDN.COM   京ICP备11022651号-4 © 2012-2016 版权