大数据文摘出品
编译:Marcy、浩哥儿、Charlene、云舟
Python 或 R,这是一个问题。在数据科学工作中,你可能也经常遇到这个选择困难问题。本文作者Brian Ray基于数十年的Python和R在数据科学领域的使用检验,分享了自己的看法,希望能够帮大家做出更好的选择。
希望这篇文章能帮助那些在数据科学中纠结于选择Python还是R的小伙伴们。如果你是数据科学领域的新手,或者你需要在项目中选择一个语言来用,这篇文章一定能帮到你。
一、也许存在第三种选项
Hadley Wickham,RStudio的首席数据科学家,已经给出了回答:与其说选择其中一种语言(R“还是”Python)更好,还不如说让两种语言相互合作 (R“和”Python)是最佳的选择。所以,我所说的第三种选项就是同时使用Python和R。这让我很感兴趣,我也将在本文末尾处详细阐述。
Hadley Wickham推特:https://twitter.com/hadleywickham
二、如何比较R和Python
以下不是两种语言的详细对比清单,只是一些值得进行对比的要素:
1. 历史
简史:
2. 使用群体
比较Python与R的用户时,要谨记以下图表:
只有50%的Python用户同时使用R
上述结果假设所有的R程序员都用R来做“科学与数据研究”,无论程序员水平如何,我们能够确定以上统计分布是真实的。
想进一步了解Python的“热潮”,可以阅读我的文章,里面有关于Python热潮的调查结果。
文章链接:
https://www.linkedin.com/pulse/python-hype-survey-results-experience-any-drastic-decline-brian-ray/
如果我们仅从“科学与数据研究”群体来看,这就引出了我们的第二个观点,即R/Python究竟适用于哪些群体?整个“科学与数据研究”群体存在着很多子群体,虽然这些子群体存在交叉,你可能会疑惑他们在更广的大群体中是如何交互并有着不同的表现的。
以下是Python/R适用的一些子群体:
虽然每个专业领域似乎都服务于特定的群体,但你会发现R在统计学和数据探索领域使用更广泛。不久之前,比起使用Python进行数据探索,启动并运行R能花费较少的时间,况且你还需要花时间安装Python。
所有一切都将被Jupyter Notebooks 和Anaconda技术颠覆。
注意:Jupyter Notebooks增加了在浏览器中编写Python/R的功能;Anaconda可以轻松安装并管理Python和R及其语言包。
现在你可以在友好的环境中编程,并用创造性的方式来生成报表和完成数据分析。程序员与他们钟爱的编程语言之间已不存在屏障。现在,Python能够在一个平台独立运行,并且提供前所未有的快速、简洁的分析功能。
影响人们选择编程语言的另一个区别在于“开源”,不仅仅在于开源库,还包括协作群体对于开源的贡献。讽刺的是,像Tensorflow和GNU科学计算库(分别隶属于Apache和GPL)这类开源许可软件,似乎同时绑定Python和R。
尽管还存在不少R的支持者,但Python使用群体中更多人是Python的纯粹支持者。另一方面,似乎有更多的企业支持R,尤其是那些曾经广泛使用统计学来做分析的企业。
最后,关于群体和协作,在Github中Python的支持者更多。在最新的Python语言包中,像Tensorflow这样的包拥有超过3.5万颗星的用户收藏。相反,再看一下最新的R语言包,像Shiny和Stan,都只有少于2千颗星的用户收藏。
3. 性能
Python和R的比较一直都不太容易,因为有太多指标和情况需要测试。在任何一个特定的硬件环境上测试都很困难。有些操作分析在一种语言上已经进行了优化,但在另一种语言上却没有。但无论如何,我们还是要进行这项比较。
非常简单的循环语句比较
开始之前,我们先思考一下在使用层面Python和R的区别。你真的想要用R写很多循环吗?我觉得不同的语言在被开发时的意图上应该是各不相同的。
在程序的合理性检验中,加载时间以及在命令行上的总运行时间:R语言是0m0.238s,Python是0m0.147s。再次强调,这并不是一个严谨的科学测试。
但这个简单的测试表明,Python的速度明显更快。虽然在大多数情况下,这并不是十分重要。
一种语言的速度快慢对于一个数据科学家而言的意义在哪里呢?这两种语言的兴起是因为它们可以被当作“命令语言”来使用。例如,我们使用Python工作时,对Pandas语言包的依赖性很大。这就引出了两种语言模块和库上更深层次的比较,事实上,这也是一个更具意义的比较。
4. 第三方支持
Python拥有PyPI,而R使用CRAN,并且它们都可以使用Anaconda。
CRAN使用其内置的“install.packages”命令进行使用。截止撰写本文时止,CRAN上大约有1.2万个包可以使用。其中有超过二分之一(大约6千多个)甚至更多的包跟数据科学相关。
PyPi拥有10倍于R的包数量,14.1万个包。其中有3700个包被标记为用于特定的科学工程领域。还有很多包虽然没被标记但的确也用于科学应用。
在这两种语言中,似乎都没有太多完全重复的包。当我在PyPi中搜索“Random Forest”时,我们得到了170个项目,但是都不尽相同。
尽管Python的软件包数量是R的10倍,但数据科学相关的软件包的数量大致相同。
第三方工具包的可用性是非常重要的。为了用指定的开发语言而不得不从头开始写程序很令人沮丧。但与此同时,如果你确实需要这样做,我希望你能将你的成果贡献给开源社区。
5. 特定任务下执行速度的比较
DataFrames与Pandas的比较可能更有意义。
我们进行了一项实验,在同一环境下比较它们针对复杂分析任务时,每一个步骤的执行时间,结果如下。
大多数任务下Python比R更快
来源链接:
http://nbviewer.jupyter.org/gist/brianray/4ce15234e6ac2975b335c8d90a4b6882
实验源码:
http://nbviewer.jupyter.org/gist/brianray/4ce15234e6ac2975b335c8d90a4b6882
如我们看到的,Python+Pandas比R中原生的DataFrames要快的多。请注意,这并不意味着Python运行的更快。Pandas库是在Numpy的基础上用C语言编译的.
6. 数据可视化的比较
我真正想表现的是ggplot2和matplotlib的比较。
Matplotlib是一只800磅的大猩猩,虽然学习起来不是那么容易,但是支持自定义并且非常容易扩展。而基于ggplot的自定义不是那么简单,甚至有些时候会非常难。
如果你喜欢漂亮的图表,并且不怎么需要自定义,R是个好选择。如果你需要更多的功能,那么Matplotlib甚至其他交互式的制图工具会对你更有帮助。R中的ShinnyR也可以为你提供这种交互性制图。
7. 我们只能二选一?
肯定有人会说,为什么不能同时使用呢?
在如下一些情况下,你可以两个同时使用:
两种语言同时使用的一些方法:
然后我们就可以直接传递Pandas的DataFrames,rpy2会自动将其转换为R的DataFrames,并通过“-i df”进行切换。
有人在Kaggle的Kernel平台上发表了关于“预测开发者们用R还是Python”的分析,他基于已有数据提出了一些有意思的看法。
9. 企业和个人偏好
当我与Google员工 、Stack Overflow 的领导人物Alex Martelli进行交流时,他向我解释了google为什么最开始只官方支持少数几种开发语言。即使在像google这样自由创新的环境下,似乎也有一些限制。这就是企业的一些选择偏好。
除了企业偏好外,组织中第一个使用某种语言的人也可能是决定企业偏好的关键人物。比如在Deloitte第一个使用R的人,他仍然在公司工作,并且现在成为了首席数据科学家。我认为,不管用什么语言,关键是追求并热爱你的项目并努力成为最好的那一个。
虽然我不是首次尝试这些工具的智者,但在此我还是要郑重声明,如果你正在研究一些重要的项目,那么在项目中去比较两种语言的差距是不可取的。
当然,虽然错误在所难免,但每一个精心规划的项目都应该为数据科学家预留一部分空间,让他们学习和实验。保持开放的态度,并拥抱多元化。
最后,从个人角度来说,我将主要使用Python。同时不管未来是和Python一起使用还是独立使用R,我都期待学习更多的R知识。
来源:Brian Ray