怎么学习用r语言进行数据挖掘

2024-05-18 10:16

1. 怎么学习用r语言进行数据挖掘

首先R是一种专业性很强的统计语言,如果想学得快一些的话,基本的统计学知识要懂,不然很多东西会掌握的比较慢。

掌握基本语法和操作,推荐国内的已经翻译的比如《R语言实战》《R语言编程艺术》,这个过程中最好结合一些小例子来做一些分析的东西。如果需要可视化的话,强烈不推荐学习R本身的作图系统,实在是太不友好了.....还是用ggplot2吧。

掌握了上面的,就可以深入一些了,如果是做数据分析和可视化,推荐《ggplot2:数据分析与图形艺术》,这个才是作图的神器啊.....如果是空间分析相关的,推荐《Applied Spatial Data Analysis with R》,这个如果可以的话看英文版,而且要有地学的一些知识背景,中文版翻译的太次了,尽量不要看。数据挖掘机器学习之类的,可以看看比如《数据挖掘与R语言》、《机器学习——实用案例解析》,不过我觉得这几本书没上面的那几本好,但是可以大概看看是咋回事,最好还是看看专门的相关书籍,熟悉各种算法和流程,到时候搜索R的package,照着文档和例子搞定,不是特别难。

怎么学习用r语言进行数据挖掘

2. 怎么学习用r语言进行数据挖掘

首先R是一种专业性很强的统计语言,如果想学得快一些的话,基本的统计学知识要懂,不然很多东西会掌握的比较慢。

掌握基本语法和操作,推荐国内的已经翻译的比如《R语言实战》《R语言编程艺术》,这个过程中最好结合一些小例子来做一些分析的东西。如果需要可视化的话,强烈不推荐学习R本身的作图系统,实在是太不友好了.....还是用ggplot2吧。

掌握了上面的,就可以深入一些了,如果是做数据分析和可视化,推荐《ggplot2:数据分析与图形艺术》,这个才是作图的神器啊.....如果是空间分析相关的,推荐《Applied Spatial Data Analysis with R》,这个如果可以的话看英文版,而且要有地学的一些知识背景,中文版翻译的太次了,尽量不要看。数据挖掘机器学习之类的,可以看看比如《数据挖掘与R语言》、《机器学习——实用案例解析》,不过我觉得这几本书没上面的那几本好,但是可以大概看看是咋回事,最好还是看看专门的相关书籍,熟悉各种算法和流程,到时候搜索R的package,照着文档和例子搞定,不是特别难。
-

3. 关于R语言和数据挖掘的

这个问题跟工具无关,而是跟业务专业相关,当然单纯从数据挖掘角度来说,越详细可能会越体现效果,但是我觉得应该从以下方面考虑:
首先是看你们的后期资源和推广能力能否精确到小区进行,比如就算你们通过挖掘发现不同小区之间有差异化特性,那你们后期的营销或推广团队能否有这个力度将其进行小区个性化的产品服务。
其次是从数据挖掘的角度来看,可以精确到小区没问题的,因为本身就是通过数据挖掘系统来进行操作,多一层变量无非是对硬件资源和运行效率多了一些需求,而且数据挖掘之后可能会发现小区这个变量未必会有价值。

关于R语言和数据挖掘的

4. 数据挖掘与R语言的介绍

本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。  本书的支持网站给出了案例研究的所有代码、数据集以及R函数包。

5. 数据挖掘与R语言的目录

出版者的话推荐序中文版序译者序前言致谢第1章简介1.1如何阅读本书1.2R简介1.2.1R起步1.2.2R对象1.2.3向量1.2.4向量化1.2.5因子1.2.6生成序列1.2.7数据子集1.2.8矩阵和数组1.2.9列表1.2.10数据框1.2.11构建新函数1.2.12对象、类和方法1.2.13管理R会话1.3MySQL简介第2章预测海藻数量2.1问题描述与目标2.2数据说明2.3数据加载到R2.4数据可视化和摘要2.5数据缺失2.5.1将缺失部分剔除2.5.2用最高频率值来填补缺失值2.5.3通过变量的相关关系来填补缺失值2.5.4通过探索案例之间的相似性来填补缺失值2.6获取预测模型2.6.1多元线性回归2.6.2回归树2.7模型的评价和选择2.8预测7类海藻的频率2.9小结第3章预测股票市场收益3.1问题描述与目标3.2可用的数据3.2.1在R中处理与时间有关的数据3.2.2从CSV文件读取数据3.2.3从网站上获取数据3.2.4从MySQL数据库读取数据3.3定义预测任务3.3.1预测什么3.3.2预测变量是什么3.3.3预测任务3.3.4模型评价准则3.4预测模型3.4.1如何应用训练集数据来建模3.4.2建模工具3.5从预测到实践3.5.1如何应用预测模型3.5.2与交易相关的评价准则3.5.3模型集成:仿真交易3.6模型评价和选择3.6.1蒙特卡罗估计3.6.2实验比较3.6.3结果分析3.7交易系统3.7.1评估最终测试数据3.7.2在线交易系统3.8小结第4章侦测欺诈交易4.1问题描述与目标4.2可用的数据4.2.1加载数据至R4.2.2探索数据集4.2.3数据问题4.3定义数据挖掘任务4.3.1问题的不同解决方法4.3.2评价准则4.3.3实验方法4.4计算离群值的排序4.4.1无监督方法4.4.2有监督方法4.4.3半监督方法4.5小结第5章微阵列样本分类5.1问题描述与目标5.1.1微阵列实验背景简介5.1.2数据集ALL5.2可用的数据5.3基因(特征)选择5.3.1基于分布特征的简单过滤方法5.3.2ANOVA过滤5.3.3用随机森林进行过滤5.3.4用特征聚类的组合进行过滤5.4遗传学异常的预测5.4.1定义预测任务5.4.2模型评价标准5.4.3实验过程5.4.4建模技术5.4.5模型比较5.5小结参考文献主题索引数据挖掘术语索引R函数索引

数据挖掘与R语言的目录

6. 怎么学习用 R 语言进行数据挖掘

  如果说数据挖掘是一门手艺,那么R语言就是工匠手里一种工具,要做出一件价值连城的艺术品需要先“利其器”,但更关键的是工匠能够“集百家之长,成一家之言“自成一派的创造力。

  正所谓”操千曲而后晓声,观千剑而后识器"。建议初学者先了解一些机器学习的基础理论以及典型的应用领域实例,定下自己想要研究的方向后与行业相结合,然后再学习工具的使用。

  R语言经典图书推荐:
  《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
  这本书从实用的统计研究角度,每一章节结合实际的例子讲解了R在创建数据集、绘制图形、数据管理、以及模型构建的使用方法,堪称经典。前两部分属于R基本功能介绍,第三部分以后才是精髓开始(包括了回归分析、方差分析、功效分析、广义线性模型、主成分和因子分析等统计方法详细的实例分析)。
  《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
  作者是华盛顿大学理论物理学博士。这本书是数据分析系列著作的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。吃透以后就能够对整个数据挖掘的流程有一个全方位的了解。
转载

7. 怎么学习用 R 语言进行数据挖掘

  如果说数据挖掘是一门手艺,那么R语言就是工匠手里一种工具,要做出一件价值连城的艺术品需要先“利其器”,但更关键的是工匠能够“集百家之长,成一家之言“自成一派的创造力。

  正所谓”操千曲而后晓声,观千剑而后识器"。建议初学者先了解一些机器学习的基础理论以及典型的应用领域实例,定下自己想要研究的方向后与行业相结合,然后再学习工具的使用。

  R语言经典图书推荐:
  《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
  这本书从实用的统计研究角度,每一章节结合实际的例子讲解了R在创建数据集、绘制图形、数据管理、以及模型构建的使用方法,堪称经典。前两部分属于R基本功能介绍,第三部分以后才是精髓开始(包括了回归分析、方差分析、功效分析、广义线性模型、主成分和因子分析等统计方法详细的实例分析)。
  《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
  作者是华盛顿大学理论物理学博士。这本书是数据分析系列著作的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。吃透以后就能够对整个数据挖掘的流程有一个全方位的了解。
转载
-

怎么学习用 R 语言进行数据挖掘

8. 怎么学习用 R 语言进行数据挖掘

数据挖掘的理论基础和R也没什么太大关系。如果明白方法了,用什么语言其实无所谓。不过R有几个包,可以提升效率和弥补R自身的不足,做大数据很有用。我就说说我每天要用的吧。

bigmemory:R的内存管理太烂了,因为很少给程序员管理的权限,这样一来操作系统懒加上R也懒导致常常读入大数据时内存瞬间用完,导致这个R session被强制退出。解决办法就是把常用的大数据提前放在共享内存里。

Rmpi,snow,multicore: 平行运算/多运程运算。 Rmpi最好多看看,是mpi在R里面的实现。这是平行运算的黄金标准。如果你要做大数据的模型,高能运算是必须的。

Rcpp:R与C++的接口。自带的.C和.F也很有用。毕竟R是高等语言,太慢了,基本的方程还是要用低等语言写。如果做统计模型,会有很多inference,这时必须要用低等语言写Log likelihood的方程。

DEoptim,quadqrog,linprog等等线性非线性优化:优化是统计少不了的技术。R里面好的优化包不是太慢就是太烂,你可以用GNU scientific library自己写优化器,或者买一个第三方的比如说IBM。不过很贵哦,

ggplot:不多说了,就是美丽的图片。。。

不是R的:hadoop。近几年,这都是处理大数据的必需品了。

有了以上工具我相信任何数据和统计问题都能解决了,不会被R自身的缺陷而陷入技术瓶颈。
-