内容简介
第1章降维方法
1.1数据挖掘中降低维度的必要性
1.2主成分分析法
1.2.1主成分分析应用于房屋数据集
1.2.2应提取多少个主成分
1.3因子分析法
1.3.1因子分析法在成年人数据集中的应用
1.3.2因子旋转
1.4用户自定义合成
总结
参考文献
练习题
第2章回归模型
2.1简单线性回归实例
2.2最小二乘法估计
2.3决定系数
2.4估计值的标准误差
2.5相关系数
2.6方差分析表
2.7异常点、高杠杆点和强影响观测值
2.8回归模型
2.9回归推断
2.9.1x和y之间线性关系的t检验
2.9.2回归直线斜率的置信区间
2.9.3给定x条件下,y均值的置信区间
2.9.4给定x条件下,y随机选择值的预测区间
2.10回归假设检验
2.11实例:棒球数据集
2.12实例:加利福尼亚州数据集
2.13线性变换实现
总结
参考文献
练习题
第3章多元回归和建模
3.1多元回归实例
3.2多元回归模型
3.3多元回归推断
3.3.1y和xi之间关系的t检验
3.3.2营养级别和糖之间关系的t检验
3.3.3营养级别和纤维之间关系的t检验
3.3.4整体回归模型的显著性水平检验:F检验
3.3.5营养级别(糖和纤维)的综合因素的F检验
3.3.6特定回归系数的置信区间
3.3.7给定x1,x2,…,xm下,y均值的置信区间
3.3.8给定x1,x2,…,xm下,y随机选择值的预测区间
3.4含有分类预测变量的回归
3.4.1调整R2:对包含无用预测变量的惩罚模式
3.4.2序贯的误差平方和
3.5多重共线性
3.6变量选择方法
3.6.1偏F检验
3.6.2向前选择程序
3.6.3向后排除程序
3.6.4逐步选择程序
3.6.5最优子集程序
3.6.6所有可能的子集选择程序
3.7变量选择方法的应用
3.7.1向前选择程序应用于谷物数据集
3.7.2向后排除程序应用于谷物数据集
3.7.3逐步选择程序应用于谷物数据集
3.7.4最优子集程序应用于谷物数据集
3.8Mallows’Cp统计量
3.9变量选择标准
3.10用主成分作为预测变量
总结
参考文献
练习题
第4章逻辑回归
4.1逻辑回归的简单实例
4.2最大似然估计
4.3解读逻辑回归模型的输出
4.4推论:预测变量都显著吗
4.5解读逻辑回归模型
4.5.1解读一个两分预测变量的模型
4.5.2解读一个多分预测变量的模型
4.5.3解读一个连续预测变量的模型
4.6线性假设
4.7空值问题
4.8多元逻辑回归
4.9引入高阶项处理非线性问题
4.10验证逻辑回归模型
4.11WEKA:运用逻辑回归进行实际应用分析
总结
参考文献
练习题
第5章朴素贝叶斯估计和贝叶斯网络
5.1贝叶斯方法
5.2最大后验概率分类
5.2.1后验让步比
5.2.2平衡数据
5.3朴素贝叶斯分类
5.4WEKA:运用朴素贝叶斯进行实际应用分析
5.5贝叶斯信念网络
5.5.1购买服装实例
5.5.2使用贝叶斯网络寻找概率
5.6WEKA:运用贝叶斯网络分类器进行实际应用分析
总结
参考文献
练习题
第6章遗传算法
6.1遗传算法简介
6.2遗传算法的基本框架
6.3遗传算法运用简单实例
6.3.1第一次循环
6.3.2第二次循环
6.4修改和改进:选择
6.5修改和改进:交叉
6.6实值变量的遗传算法
6.7使用遗传算法训练神经网络
6.8WEKA:使用遗传算法进行实际操作分析
总结
参考文献
练习题
第7章案例研究:直邮营销的回应建模问题
7.1跨行业的数据挖掘标准流程
7.2业务理解阶段
7.2.1直邮营销回应问题
7.2.2建立成本/收益表
7.3数据理解和数据准备阶段
7.3.1服装店数据集
7.3.2变换以实现数据的正态性或对称性
7.3.3标准化和标志变量
7.3.4衍生新的变量
7.3.5探索预测变量和回应变量之间的关系
7.3.6对预测变量之间关联结构的考察
7.4建模和评估阶段
7.4.1主成分分析
7.4.2聚类分析:BIRCH聚类算法
7.4.3平衡训练数据集
7.4.4建立基线模型性能
7.4.5模型集A:使用主成分
7.4.6失衡作为错误分类成本的替代
7.4.7组合模型:投票
7.4.8模型集B:非主成分分析模型
7.4.9利用均值回应概率组合模型
总结
参考文献