内容简介
1 理解R的性能:为什么R程序有时候很慢?
计算性能的三个限制因素:CPU、RAM和磁盘I/O
R是运行时解释的
R是单线程的
R需要将全部数据加载到内存
算法设计影响时间和空间复杂度
小结
2 性能分析:衡量代码的性能
衡量总运行时间
使用system.time()衡量运行时间
使用rbenchmark重复衡量运行时间
使用microbenchmark衡量运行时间的分布
分析运行时间
使用Rprof()分析函数的性能
性能分析的结果
分析内存使用情况
使用OS工具监控内存、CPU使用情况和磁盘I/O
瓶颈的发现及解决
小结
3 加快R运行的简单方法
向量化
使用内置函数
预分配内存
使用更简单的数据结构
使用哈希表进行大型数据上的频繁查找
去CRAN寻找更快的包
小结
4 使用编译代码加快运行速度
在运行之前编译R代码
编译函数
即时编译(JIT)R代码
在R中使用编译语言
前提条件
以内联形式包含编译代码
调用外部编译代码
使用编译代码的注意事项
小结
5 使用GPU让R运行得更快
GPU上的通用计算
R和GPU
安装gputools
使用gputools实现快速统计建模
小结
6 减少内存使用的简单方法
重用对象而不多占用内存
删除不再需要的中间数据
运行时计算值而不是永久性存储值
交换活跃数据和非活跃数据
小结
7 使用有限的内存处理大型数据集
使用节约内存的数据结构
更小的数据类型
稀疏矩阵
对称矩阵
比特向量
使用内存映射文件并以块的形式处理数据
bigmemory包
ff包
小结
8 使用并行计算加倍提升性能
数据并行性v.s.任务并行性
实现数据并行的算法
实现任务并行的算法
集群节点运行同一个任务时
集群节点运行多个不同任务时
计算机集群并行执行多个任务
共享内存并行性v.s.分布式内存并行性
优化并行的性能
小结
9 将数据处理交给数据库系统
将数据抽取到R v.s.在数据库中处理数据
在关系型数据库中使用SQL进行数据预处理
将R表达式转化为SQL
使用dplyr
使用PivotalR
在数据库中运行统计和机器学习算法
使用列式数据库提升性能
使用数据库阵列最大化科学计算的性能
小结
10 R和大数据
理解Hadoop
在Amazon Web Services上配置Hadoop
使用Hadoop批量处理大型数据集
将数据上传到HDFS
使用RHadoop分析HDFS数据
R中的其他Hadoop包
小结