python很適合做大資料相關的分析,內建的c編譯的模組能應對常見的操作,個別極端的演算法建議用c重寫相關模組。
python本身的特點更多的是高效率的開發和簡單的維護,速度交給c去吧,更多的問題其實出自寫**的人沒有更好的使用,而不是效率不夠高。比如排序,本來python有非常高效的內建c編譯的模組,卻非要自己寫演算法,這樣的結果不慢都是奇怪的。
另外還要看需求是cpu密集型,還是io密集型,如果是cpu密集型建議這部分操作由c實現,io密集型的效率不會因為python而有多少改變。
c的效率是高,但框架搭起來也費勁,所以還是結合著來吧,也因此,python被稱為膠水語言。
做大資料心得
1 sql嫻熟,這體現在etl的hive階段,自定義函式,分析函式,sql各種關聯寫 類dba傾向 2 hive sql優化要懂 3 mr流程要很熟悉,mr 優化,配置要知道,這在hive sql優化上有幫助,甚至有的hive寫法很消耗效率,啟動多個mr的時候,能自定義mr 來替代 4 大資料的et...
做大資料分析的怎麼可以不會這個?
0 引言 1 環境 2 模組準備 3 實現思路 4 小試牛刀 5 中試牛刀 6 總結 作業系統 windows python版本 3.7.2 本文涉及到的python第三方模組,共計四個 分詞模組jieba,文字雲模組wordcloud,畫圖模組matplotlib,用來處理背景的模組scipy。這...
SqlBulkCopy做大資料插入
在做大批量資料插入的時候,如果用insert into values 這種方式的話效率極低,這裡介紹兩種效能比較好的批量插入方法。1.使用sqlbulkcopy private static long sqlbulkcopyinsert sqlbulkcopy sqlbulkcopy new sql...