擇的程式語言,但它正在迅速地讓位給python。最大原因是:python更通用且相對容易學習,而r需要掌握複雜的程式設計環境。
r:不是真正的語言
但正如bob muenchen強調的,r甚至對於那些精通sas和spss資料統計工具的人來說都是困難的。關於r為分析師降低了複雜性的問題,還有待爭議,雖然r包含巨集和矩陣語言,此外,你還需要掌握像spss等工具。但是對於那些期待r去實現類似stata的功能的人,他們注定要失望。
綜合考慮,r的與眾不同使它較難學習。
python降低資料科學技術壁壘
隨著企業竭盡所能地使用資料,他們也正在努力尋找合格的資料科學家。然而,正如gartner的svetlana sicular所假設的,在本公司內對員工培訓一些簡單的大資料技術,比培訓新僱傭的資料科學家複雜的商業知識更有效率。
python」所向披靡「
但是,除了可以利用現成的python開發者資源,用python語言做資料科學的最大好處之一是:在不同的應用程式中使用一種程式語言所增加的效率。德克薩斯大學奧斯汀分校研究助理tal yarkoni解釋說:「事實證明,使用一種語言來做所有的開發和分析的好處是相當可觀的。一方面,當你可以用同一種語言做所有的事情的時候,你就不必一直提醒自己:ruby使用blocks而不是comprehensions,在python中得到陣列的大小應當呼叫len(array),而不是array.length……
另外,你不需要再擔心專案的不同模組採用不同語言的介面問題。沒有什麼比在python中解析一些文字資料,然後將它轉換成內部使用所需要的格式,最後才發現必須將它以另一種格式寫到磁碟上,以便r或者matlab去做分析更煩人的了。只要使用單一的語言,所有這些開銷都將消失。」
使用python的主流資料科學
相比r豐富的資料分析能力,python尚有很多不足,但是它正在迅速的縮小差距。請記住:python成功的關鍵並不是它比r或其他分析工具能夠處理更神秘的功能,而在於它的平易近人和通用的性質。資料科學正在走出頭號怪胎的領域,上個月在紐約舉行的o'reilly's strata會議這一點尤為明顯:過去的與會者多是學術領域的博士,現在則是關鍵的業務分析師和其他被企業要求去弄清楚大資料業務的人。
相比r,這種新的,早期的「資料科學家」,將更多地使用python。python使用起來相對簡單,而且他們可能已經將其用於乙個專案中了。至於在其他市場,相比於那些功能強大但複雜的工具,熟悉或者容易學習的工具更容易取勝。
用python或R往資料庫上傳資料
多數情況下,我們是用python或r從資料庫裡面提取資料,但有的時候為了工作方便,我們會需要建乙個臨時表。import string import psycopg2 import random conn psycopg2.connect database dbname user user passw...
R和python資料分析方面的對比爭論
面對大量的資料進行分析時,選擇一款好的工具或者方法至關重要,節約時間的同時,還能讓資料結構清晰明了,在最近幾年,用r,python的人越來越多,於是出現了眾多關於用哪個做資料分析最好的爭議。在這裡分享一下關於r和python資料分析方面的觀點 首先,從整體來說,認為資料分析需要的是在有限時間內,用最...
資料科學部門如何使用Python和R組合完成任務
和那些資料科學比賽不同,在真實的資料科學中,我們可能更多的時間不是在做演算法的開發,而是對需求的定義和資料的治理。所以,如何更好的結合現實業務,讓資料真正產生價值成了乙個更有意義的話題。資料科學專案的完整流程通常是這樣的五步驟 需求定義 資料獲取 資料治理 資料分析 資料視覺化 需求定義是資料科學專...