主页 详情

《大数据应用与技术丛书 数据挖掘与预测分析 第2版》_(美)DanielT.Larose,(美)ChantalD.Larose著;王念滨,宋敏,裴大茗译_1

【书名】:《大数据应用与技术丛书 数据挖掘与预测分析 第2版》
【作者】:(美)DanielT.Larose,(美)ChantalD.Larose著;王念滨,宋敏,裴大茗译
【出版社】:北京:清华大学出版社
【时间】:2017
【页数】:725
【ISBN】:9787302459873
【SS码】:14172900

最新查询

内容简介

第Ⅰ部分 数据准备

第1章 数据挖掘与预测分析概述

1.1 什么是数据挖掘和预测分析

1.2 需求:数据挖掘技术人员

1.3 数据挖掘离不开人的参与

1.4 跨行业数据挖掘标准过程:CRISP-DM

1.5 数据挖掘的谬误

1.6 数据挖掘能够完成的任务

1.6.1 描述

1.6.2 评估

1.6.3 预测

1.6.4 分类

1.6.5 聚类

1.6.6 关联

R语言开发园地

R参考文献

练习

第2章 数据预处理

2.1 需要预处理数据的原因

2.2 数据清理

2.3 处理缺失数据

2.4 识别错误分类

2.5 识别离群值的图形方法

2.6 中心和散布度量

2.7 数据变换

2.8 min-max规范化

2.9 Z-score标准化

2.10 小数定标规范化

2.11 变换为正态数据

2.12 识别离群值的数值方法

2.13 标志变量

2.14 将分类变量转换为数值变量

2.15 数值变量分箱

2.16 对分类变量重新划分类别

2.17 添加索引字段

2.18 删除无用变量

2.19 可能不应该删除的变量

2.20 删除重复记录

2.21 ID字段简述

R语言开发园地

R参考文献

练习

第3章 探索性数据分析

3.1 假设检验与探索性数据分析

3.2 了解数据集

3.3 探索分类变量

3.4 探索数值变量

3.5 探索多元关系

3.6 选择感兴趣的数据子集作进一步研究

3.7 使用EDA发现异常字段

3.8 基于预测值分级

3.9 派生新变量:标志变量

3.10 派生新变量:数值变量

3.11 使用EDA探测相关联的预测变量

3.12 EDA概述

R语言开发园地

R参考文献

练习

第4章 降维方法

4.1 数据挖掘中降维的必要性

4.2 主成分分析

4.3 将主成分分析应用于房屋数据集

4.4 应提取多少个主成分

4.4.1 特征值标准

4.4.2 解释变异的比例标准

4.4.3 最小共性标准

4.4.4 坡度图标准

4.5 主成分描述

4.6 共性

4.7 主成分验证

4.8 因子分析法

4.9 因子分析法在成年人数据集中的应用

4.10 因子旋转

4.11 用户自定义合成

4.12 用户自定义合成的示例

R语言开发园地

R参考文献

练习

第Ⅱ部分 统计分析

第5章 单变量统计分析

5.1 数据知识发现中的数据挖掘任务

5.2 用于估计和预测的统计方法

5.3 统计推理

5.4 我们对评估的确信程度如何

5.5 均值的置信区间估计

5.6 如何减少误差范围

5.7 比例的置信区间估计

5.8 均值的假设检验

5.9 拒绝零假设的证据力度的评估

5.10 使用置信区间执行假设检验

5.11 比例的假设检验

R语言开发园地

R参考文献

练习

第6章 多元统计

6.1 描述均值差异的两样例t-检验方法

6.2 判断总体差异的两样例Z-检验

6.3 比例均匀性的测试

6.4 多元数据拟合情况的卡方检验

6.5 方差分析

R语言开发园地

R参考文献

练习

第7章 数据建模准备

7.1 有监督学习与无监督学习

7.2 统计方法与数据挖掘方法

7.3 交叉验证

7.4 过度拟合

7.5 偏差-方差权衡

7.6 平衡训练数据集

7.7 建立基线性能

R语言开发园地

R参考文献

练习

第8章 简单线性回归

8.1 简单线性回归示例

8.2 外推的危险

8.3 回归有用吗?系数的确定

8.4 估计标准误差

8.5 相关系数r

8.6 简单线性回归的方差分析表

8.7 离群点、高杠杆率点与有影响的观察点

8.8 回归方程概括

8.9 回归假设验证

8.10 回归推理

8.11 x与y之间关系的t-检验

8.12 回归直线斜率的置信区间

8.13 相关系数ρ的置信区间

8.14 给定均值的置信区间

8.15 给定随机选择值的预测区间

8.16 获得线性特性的变换

8.17 博克斯-考克斯变换

R语言开发园地

R参考文献

练习

第9章 多元回归与模型构建

9.1 多元回归示例

9.2 总体多元回归方程

9.3 多元回归推理

9.3.1 y与xi之间关系的t-检验

9.3.2 营养等级与含糖量之间关系的t-检验

9.3.3 营养等级与纤维含量之间关系的t-检验

9.3.4 总体回归模型显著性的F-检验

9.3.5 营养等级与含糖量和纤维含量之间关系的F-检验

9.3.6 特定系数βi的置信区间

9.3.7 (在给定x1,x2,...,xm的情况下)y的均值的置信区间

9.3.8 (在给定x1,x2,...,xm的情况下)随机选择的y值的预测区间

9.4 利用指示变量的包含范畴型预测变量的回归

9.5 调整R2:惩罚包含无用预测变量的模型

9.6 序列平方和

9.7 多重共线性

9.8 变量选择方法

9.8.1 有偏F-检验

9.8.2 前向选择过程

9.8.3 反向删除过程

9.8.4 逐步选择过程

9.8.5 最佳子集过程

9.8.6 “所有可能子集”过程

9.9 油耗数据集

9.10 变量选择方法的应用

9.10.1 应用于油耗数据集的前向选择过程

9.10.2 应用于油耗数据集的后向删除过程

9.10.3 应用于油耗数据集的逐步选择过程

9.10.4 应用于油耗数据集的最佳子集过程

9.10.5 Mallows’Cp统计量

9.11 将主成分作为预测变量进行多元回归

R语言开发园地

R参考文献

练习

第Ⅲ部分 分类

第10章 K-最近邻算法

10.1 分类任务

10.2 k-最近邻算法

10.3 距离函数

10.4 组合函数

10.4.1 简单权重投票方式

10.4.2 加权投票

10.5 量化属性的相关性:轴伸缩

10.6 数据库方面的考虑

10.7 将k-最近邻算法用于评估和预测

10.8 k值的选择

10.9 利用IBM/SPSS建模工具应用k-最近邻算法

R语言开发园地

R参考文献

练习

第11章 决策树

11.1 决策树是什么

11.2 使用决策树的要求

11.3 分类与回归树

11.4 C4.5算法

11.5 决策规则

11.6 比较C5.0和CART算法应用到实际的数据

R语言开发园地

R参考文献

练习

第12章 神经元网络

12.1 输入和输出编码

12.2 神经元网络用于评估和预测

12.3 神经元网络的简单示例

12.4 sigmoid激活函数

12.5 反向传播

12.6 梯度下降法

12.7 反向传播规则

12.8 反向传播示例

12.9 终止条件

12.10 学习率

12.11 动量项

12.12 敏感性分析

12.13 神经元网络建模应用

R语言开发园地

R参考文献

练习

第13章 logistic回归

13.1 logistic回归简单示例

13.2 最大似然估计

13.3 解释logistic回归的输出

13.4 推理:这些预测有显著性吗

13.5 概率比比率与相对风险

13.6 对二分logistic回归预测的解释

13.7 对应用于多元预测变量的logistic回归的解释

13.8 对应用于连续型预测变量的logistic回归的解释

13.9 线性假设

13.10 零单元问题

13.11 多元logistic回归

13.12 引入高阶项处理非线性

13.13 logistic回归模型的验证

13.14 WEKA:应用logistic回归的实践分析

R语言开发园地

R参考文献

练习

第14章 朴素贝叶斯与贝叶斯网络

14.1 贝叶斯方法

14.2 最大后验(MAP)分类

14.3 后验概率比

14.4 数据平衡

14.5 朴素贝叶斯分类

14.6 解释对数后验概率比

14.7 零单元问题

14.8 朴素贝叶斯分类中的数值型预测变量

14.9 WEKA:使用朴素贝叶斯开展分析

14.10 贝叶斯信念网络

14.11 衣物购买示例

14.12 利用贝叶斯网络发现概率

R语言开发园地

R参考文献

练习

第15章 模型评估技术

15.1 用于描述任务的模型评估技术

15.2 用于评估和预测任务的模型评估技术

15.3 用于分类任务的模型评估方法

15.4 准确率和总误差率

15.5 灵敏性和特效性

15.6 假正类率和假负类率

15.7 真正类、真负类、假正类、假负类的比例

15.8 通过误分类成本调整来反映现实关注点

15.9 决策成本/效益分析

15.10 提升图表和增益图表

15.11 整合模型评估与模型建立

15.12 结果融合:应用一系列模型

R语言开发园地

R参考文献

练习

第16章 基于数据驱动成本的成本-效益分析

16.1 在行调整条件下的决策不变性

16.2 正分类标准

16.3 正分类标准的示范

16.4 构建成本矩阵

16.5 在缩放条件下的决策不变性

16.6 直接成本和机会成本

16.7 案例研究:基于数据驱动误分类成本的成本-效益分析

16.8 再平衡作为误分类成本的代理

R语言开发园地

R参考文献

练习

第17章 三元和k元分类模型的成本-效益分析

17.1 三元目标的分类评估变量

17.2 三元分类评估度量在贷款审批问题中的应用

17.3 三元贷款分类问题的数据驱动成本-效益分析

17.4 比较使用/不使用数据驱动误分类成本的CART模型

17.5 一般的k元目标的分类评估度量

17.6 k元分类中评估度量和数据驱动误分类成本的示例

R语言开发园地

R参考文献

练习

第18章 分类模型的图形化评估

18.1 回顾提升图表和增益图表

18.2 使用误分类成本的提升图表和增益图表

18.3 响应图表

18.4 利润图表

18.5 投资回报(ROI)图表

R语言开发园地

R参考文献

练习

第Ⅳ部分 聚类

第19章 层次聚类和k-均值聚类

19.1 聚类任务

19.2 层次聚类方法

19.3 单一链聚类

19.4 完全链聚类

19.5 k-均值聚类

19.6 k-均值聚类实操示例

19.7 k-均值算法执行中MSB、MSE和伪-F的行为

19.8 SAS Enterprise Miner中k-均值算法的应用

19.9 使用簇成员关系来预测客户流失

R语言开发园地

R参考文献

练习

第20章 Kohonen网络

20.1 自组织映射

20.2 Kohonen网络

20.3 Kohonen网络学习示例

20.4 簇有效性

20.5 使用Kohonen网络进行聚类应用

20.6 解释簇

20.7 将簇成员关系作为下游数据挖掘模型的输入

R语言开发园地

R参考文献

练习

第21章 BIRCH聚类

21.1 BIRCH聚类的理论基础

21.2 簇特征

21.3 簇特征树

21.4 阶段1:构建CF树

21.5 阶段2:聚类子簇

21.6 BIRCH聚类示例之阶段1:构建CF树

21.7 BIRCH聚类示例之阶段2:聚类子簇

21.8 候选聚类解决方案的评估

21.9 案例研究:在银行贷款数据集上应用BIRCH聚类

21.9.1 案例研究第1课:对于任意聚类算法避免高度相关的输入

21.9.2 案例研究第2课:不同的排序可能会导致不同的簇数目

R语言开发园地

R参考文献

练习

第22章 度量簇的优劣

22.1 度量簇优劣的基本原理

22.2 轮廓方法

22.3 轮廓值示例

22.4 Iris数据集的轮廓值分析

22.5 伪-F统计方法

22.6 伪-F统计示例

22.7 将伪-F统计应用于Iris数据集

22.8 簇验证

22.9 将簇验证方法应用于贷款数据集

R语言开发园地

R参考文献

练习

第Ⅴ部分 关联规则

第23章 关联规则

23.1 亲和度分析与购物篮分析

23.2 支持度、可信度、频繁项集和先验属性

23.3 先验算法工作原理(第1部分)——建立频繁项集

23.4 先验算法工作原理(第2部分)——建立关联规则

23.5 从标志数据扩展到分类数据

23.6 信息理论方法:广义规则推理方法

23.7 关联规则不易做好

23.8 度量关联规则可用性的方法

23.9 关联规则是监督学习还是无监督学习

23.10 局部模式与全局模型

R语言开发园地

R参考文献

练习

第Ⅵ部分 增强模型性能

第24章 细分模型

24.1 细分建模过程

24.2 利用EDA识别分段的细分建模

24.3 利用聚类方法识别分段的细分建模

R语言开发园地

R参考文献

练习

第25章 集成方法:bagging和boosting

25.1 使用集成分类模型的理由

25.2 偏差、方差与噪声

25.3 适合采用bagging的场合

25.4 bagging

25.5 boosting

25.6 使用IBM/SPSS建模器应用bagging和boosting

参考文献

R语言开发园地

R参考文献

练习

第26章 模型投票与趋向平均

26.1 简单模型投票

26.2 其他投票方法

26.3 模型投票过程

26.4 模型投票的应用

26.5 什么是趋向平均

26.6 趋向平均过程

26.7 趋向平均的应用

R语言开发园地

R参考文献

练习

第Ⅶ部分 更多主题

第27章 遗传算法

27.1 遗传算法简介

27.2 基因算法的基本框架

27.3 遗传算法的简单示例

27.3.1 第1次迭代

27.3.2 第2次迭代

27.4 改进及增强:选择

27.5 改进及增强:交叉

27.5.1 多点交叉

27.5.2 通用交叉

27.6 实值变量的遗传算法

27.6.1 单一算术交叉

27.6.2 简单算术交叉

27.6.3 完全算术交叉

27.6.4 离散交叉

27.6.5 正态分布突变

27.7 利用遗传算法训练神经元网络

27.8 WEKA:使用遗传算法进行分析

R语言开发园地

R参考文献

练习

第28章 缺失数据的填充

28.1 缺失数据填充的必要性

28.2 缺失数据填充:连续型变量

28.3 填充的标准误差

28.4 缺失值填充:范畴型变量

28.5 缺失的处理模式

参考文献

R语言开发园地

R参考文献

练习

第Ⅷ部分 案例研究:对直邮营销的响应预测

第29章 案例研究,第1部分:业务理解、数据预处理和探索性数据分析

29.1 数据挖掘的跨行业标准

29.2 业务理解阶段

29.3 数据理解阶段,第一部分:熟悉数据集

29.4 数据准备阶段

29.4.1 消费金额为负值的情况

29.4.2 实现正态性或对称性的转换

29.4.3 标准化

29.4.4 派生新变量

29.5 数据理解阶段,第二部分:探索性数据分析

29.5.1 探索预测因子和响应之间的关系

29.5.2 研究预测因子间的相关性结构

29.5.3 逆转换对于解释的重要性

第30章 案例研究,第2部分:聚类与主成分分析

30.1 数据划分

30.2 制定主成分

30.3 验证主成分

30.4 主成分概括

30.5 利用BIRCH聚类算法选择最优聚类数

30.6 利用k均值聚类算法选择最优聚类数

30.7 k-均值聚类应用

30.8 验证聚类

30.9 聚类概括

第31章 案例研究,第3部分:建模与评估性能和可解释性

31.1 选择性能最佳模型,还是既要性能又要可解释性

31.2 建模与评估概述

31.3 利用数据驱动开销开展损益分析

31.4 输入到模型中的变量

31.5 建立基线模型性能

31.6 利用误分类开销的模型

31.7 需要用代理调整误分类开销的模型

31.8 采用投票和趋向平均方法合并模型

31.9 对利润最佳模型的解释

第32章 案例研究,第4部分:高性能建模与评估

32.1 输入到模型中的变量

32.2 使用误分类开销的模型

32.3 需要作为误分类开销代理调整的模型

32.4 使用投票和趋向平均的合并模型

32.5 经验总结

32.6 总结

附录A 数据汇总与可视化


书查询(www.shuchaxun.com)本网页唯一编码:
107a54a54bc2c48fb0616793e357711e#1b337822e6153ecddf89f2db974f7dea#254958675#数据挖掘与预测分析 第2版=Data mining and predictive analytics_14172900.zip