SQL on Hadoop開源專案總結

隨著hadoop的流行，越來越多的企業把資料儲存在hadoop上，或者non-sql資料庫上，隨之相關的資料處理技術也從一開始的map reduce一統江湖，到現在各種技術競相出現。最新的趨勢是，大家普遍希望能夠快速得到查詢結果，做互動式查詢，同時也希望傳統的bi(business intelligence，商務智慧型)工具可以直接和基於hadoop的大資料平台連線起來，以便使用現用工具進行視覺化資料分析。

sql on hadoop是近幾年發展起來的技術，解決了互動式查詢和sql支援的問題。下文總結了一些這個領域的開源專案，供參考。如有具體問題或任何反饋，歡迎聯絡作者本人：[email protected]。

專案名稱

技術特點

主導公司

apache hive

支援原生hadoop資料儲存和訪問，儲存資料schema等metadada資訊，提供類sql的資料查詢語言

初期由facebook開發，現在被hadoop社群廣泛接受

apache spark

將map reduce快取在記憶體中執行（rdd，resilient distributed datasets），使用多級有向圖來優化查詢執行。spark sql支援jdbc和odbc

databricks

cloudera impala

使用c/c++實現的基於hadoop的資料查詢層，使用者量比較大，與現有bi工具整合比較好

cloudera

stinger initiative

基於hive的效能優化和提公升，與hadoop結合比較緊密

hortonworks

apache drill

以google dremel**為基礎，全新實現的資料查詢層，不依賴hadoop，支援schema free的資料查詢。支援jdbc和odbc

mapr

presto

分布式sql查詢執行引擎，支援多種資料來源，可擴充套件性比較好。支援jdbc

初期由facebook開發，現在netflix也是積極使用者和貢獻者

apache phoenix

基於apache hbase的關係型資料庫層。支援jdbc

初期由salesforce開發，現在被多家公司使用和共同開發

apache kylin

基於apache hbase的olap，使用olap cube技術做多維資料預計算和聚合。支援jdbc

由ebay開發

apache tajo

基於hadoop的資料倉儲和sql資料查詢執行引擎。支援jdbc

由database lab., korea university開發

cascading lingual

基於hadoop的sql資料查詢執行引擎。支援jdbc

由cascading和optiq開源社群開發

dato (graphlab)

嚴格意義上不屬於sql on hadoop，但是其有特殊的技術，所以值得一提。基於c++實現的資料儲存和分析工具，初期是graph base的資料儲存和查詢技術，主要用於機器學習。現在也擴充套件為通用的大資料分析和處理平台。

graphlab由carnegie mellon university的carlos guestrin教授發起，現在改名為dato，由dato.com公司主導

以上各個專案各有特點和優缺點，目前沒有一家可以統一整個sql on hadoop市場，並且各自都仍在發展和演進之中。使用者需要根據自己的特定應用場景和技術領域選擇合適的工具。

SQL on Hadoop開源專案總結

C 開源專案

docker docker開源專案

docker fig開源專案

SQL on Hadoop開源專案總結

C 開源專案

docker docker開源專案

docker fig開源專案

相關推薦