深入浅出R语言数据分析
上QQ阅读APP看书,第一时间看更新

笔者的使用体会

笔者以R语言为工具进行数据分析、统计建模、机器学习等数据科学的工作已经很多年了,对R语言的原理、应用等各个方面有着比较全面的认识。R语言有着非常突出的优点。

第一,R语言是开源的,可以完成SAS所能完成的几乎所有的工作,SAS非常昂贵,但是R语言完全免费。个人或者公司可以自由地安装、使用、更新、修改R语言程序,或者转售R语言程序,这是一个巨大的优势。

第二,R语言是跨平台的,可以在Windows、Mac OS和Linux上运行,可以从各种数据源导入数据。

第三,R语言有着非常强大的社区,其提供了非常丰富的数据科学、统计相关的资源,可以使得每一个R语言用户受益。正是这些资源,可以让一个非常复杂的问题得到快速解决。

第四,R语言提供了强大的数据可视化功能,可以生成高质量的图形,如条形图、直方图、散点图、动态图形、数学符号,甚至是自己设计的全新图形,通常只需很少的代码。

第五,R语言的文档资源相当丰富,并且质量非常高,这对于学习R语言及在工作中使用R语言有着非常大的帮助。因为R语言涉及很多领域的应用,从生物、金融到贝叶斯统计、网络分析,可以沿着R语言资源的脉络了解其他领域的知识。

第六,R语言同样可以用来处理PB级别的业务数据。使用R语言处理大量数据时,系统可能会耗尽内存,但有几种商业版本的R语言可以轻松处理大量业务数据,而不会有任何麻烦。

使用R语言存在一些挑战。R语言的学习曲线比较陡峭,虽然R语言的语法比较简单,入门比较快;R语言的强大在于其丰富的资源,掌握这些资源并加以利用并不是一件容易的事情;另外,解决数据分析、数据科学方面的问题,仅仅了解R语言是远远不够的,统计理论、机器学习方面的知识同样是解决问题的门槛;并且,更重要的是掌握数据科学、数据分析问题的思维方式及流程,而这些也不是短时间内就能掌握的。

但是,只要坚持学习下来,就会发现,R语言提供的大量地应用于数据科学、数据分析方面的资源都能够为我们所用,而我们也能游刃有余地解决数据分析相关的问题。