隨著hadoop的流行,越來越多的企業把資料儲存在hadoop上,或者non-sql資料庫上,隨之相關的資料處理技術也從一開始的map reduce一統江湖,到現在各種技術競相出現。最新的趨勢是,大家普遍希望能夠快速得到查詢結果,做互動式查詢,同時也希望傳統的bi(business intelligence,商務智慧型)工具可以直接和基於hadoop的大資料平台連線起來,以便使用現用工具進行視覺化資料分析。
sql on hadoop是近幾年發展起來的技術,解決了互動式查詢和sql支援的問題。下文總結了一些這個領域的開源專案,供參考。如有具體問題或任何反饋,歡迎聯絡作者本人:[email protected]。
專案名稱
技術特點
主導公司
apache hive
支援原生hadoop資料儲存和訪問,儲存資料schema等metadada資訊,提供類sql的資料查詢語言
初期由facebook開發,現在被hadoop社群廣泛接受
apache spark
將map reduce快取在記憶體中執行(rdd,resilient distributed datasets),使用多級有向圖來優化查詢執行。spark sql支援jdbc和odbc
databricks
cloudera impala
使用c/c++實現的基於hadoop的資料查詢層,使用者量比較大,與現有bi工具整合比較好
cloudera
stinger initiative
基於hive的效能優化和提公升,與hadoop結合比較緊密
hortonworks
apache drill
以google dremel**為基礎,全新實現的資料查詢層,不依賴hadoop,支援schema free的資料查詢。支援jdbc和odbc
mapr
presto
分布式sql查詢執行引擎,支援多種資料來源,可擴充套件性比較好。支援jdbc
初期由facebook開發,現在netflix也是積極使用者和貢獻者
apache phoenix
基於apache hbase的關係型資料庫層。支援jdbc
初期由salesforce開發,現在被多家公司使用和共同開發
apache kylin
基於apache hbase的olap,使用olap cube技術做多維資料預計算和聚合。支援jdbc
由ebay開發
apache tajo
基於hadoop的資料倉儲和sql資料查詢執行引擎。支援jdbc
由database lab., korea university開發
cascading lingual
基於hadoop的sql資料查詢執行引擎。支援jdbc
由cascading和optiq開源社群開發
dato (graphlab)
嚴格意義上不屬於sql on hadoop,但是其有特殊的技術,所以值得一提。基於c++實現的資料儲存和分析工具,初期是graph base的資料儲存和查詢技術,主要用於機器學習。現在也擴充套件為通用的大資料分析和處理平台。
graphlab由carnegie mellon university的carlos guestrin教授發起,現在改名為dato,由dato.com公司主導
以上各個專案各有特點和優缺點,目前沒有一家可以統一整個sql on hadoop市場,並且各自都仍在發展和演進之中。使用者需要根據自己的特定應用場景和技術領域選擇合適的工具。
C 開源專案
1.emule 2.todolist 3.ftpserver 4.wxwidgets 5.tightvnc 6.codejock.xtreme.suite.pro.activex 7.jrtplib 8.boost 9.nopepad 10.opencv 11.qt,gtk 12.openoffic...
docker docker開源專案
最早接觸docker是在14年年初,當初docker遠沒有這在這麼火,當時覺得docker也就是類似openstack cloudstack的乙個容器管理,沒什麼特別,沒想到啊,半年的時間裡,發生了如此翻天覆地的變化 vmware與docker合作 rhel 7整合docker cloudfoudr...
docker fig開源專案
今日主題 docker之fig開源專案。serf image ctlc serf ports 7373 7946 lb image ctlc haproxy ports 80 80 links serf environment haproxy password qa1n76pwari9 web im...